5P by xguru 4달전 | favorite | 댓글과 토론
  • AMD가 최근 MI300X 그래픽 가속기를 발표하며 Nvidia의 H100에 비해 최대 1.6배 더 높은 성능을 주장
    • 이에 대해 Nvidia는 AMD가 H100과의 비교 시 자사의 최적화를 사용하지 않았다고 반박함
  • AMD는 Nvidia가 서버 워크로드에서 흔히 발생하는 지연 시간을 고려하지 않고, 실제 상황을 모방하지 않은 처리량 성능만을 보여줬다고 지적함
    • 또한 Nvidia가 H100의 내부 TensorRT-LLM을 사용하여 선택적 인퍼런싱 워크로드 세트를 벤치마킹했다고 주장
  • AMD는 널리 사용되는 vLLM과 FP16 데이터 타입을 사용하여 테스트를 진행했으며, vLLM은 FP8을 지원하지 않음을 강조
  • AMD는 Nvidia가 실제 서버 환경을 반영하지 않고 지연 시간을 고려하지 않은 채 처리량 성능을 제시했다고 비판

AMD의 최적화 및 지연 시간 고려한 업데이트된 테스트 결과

  • AMD는 Nvidia의 TensorRT-LLM을 사용하여 세 번의 성능 테스트를 수행함
  • 첫 번째 테스트는 두 회사 모두 vLLM을 사용하여 FP16 데이터셋으로 비교함 : MI300X가 2.1배 빠름
  • 두 번째 테스트에서는 MI300X의 vLLM 성능을 TensorRT-LLM과 비교함 : MI300X가 1.3배 빠름
  • 세 번째 테스트에서는 MI300X의 vLLM(FP16)과 TensorRT-LLM(FP8)과 비교함: 1.7초대 1.6초로 H100이 조금 더 빠름
  • FP8을 사용하기 위해서는 TensorRT-LLM의 폐쇄형 시스템과 함께 FP16을 버려야 하며, 본질적으로 vLLM을 영원히 버려야 한다는 점도 인정해야 함