- AMD가 최근 MI300X 그래픽 가속기를 발표하며 Nvidia의 H100에 비해 최대 1.6배 더 높은 성능을 주장
- 이에 대해 Nvidia는 AMD가 H100과의 비교 시 자사의 최적화를 사용하지 않았다고 반박함
- AMD는 Nvidia가 서버 워크로드에서 흔히 발생하는 지연 시간을 고려하지 않고, 실제 상황을 모방하지 않은 처리량 성능만을 보여줬다고 지적함
- 또한 Nvidia가 H100의 내부 TensorRT-LLM을 사용하여 선택적 인퍼런싱 워크로드 세트를 벤치마킹했다고 주장
- AMD는 널리 사용되는 vLLM과 FP16 데이터 타입을 사용하여 테스트를 진행했으며, vLLM은 FP8을 지원하지 않음을 강조
- AMD는 Nvidia가 실제 서버 환경을 반영하지 않고 지연 시간을 고려하지 않은 채 처리량 성능을 제시했다고 비판
AMD의 최적화 및 지연 시간 고려한 업데이트된 테스트 결과
- AMD는 Nvidia의 TensorRT-LLM을 사용하여 세 번의 성능 테스트를 수행함
- 첫 번째 테스트는 두 회사 모두 vLLM을 사용하여 FP16 데이터셋으로 비교함 : MI300X가 2.1배 빠름
- 두 번째 테스트에서는 MI300X의 vLLM 성능을 TensorRT-LLM과 비교함 : MI300X가 1.3배 빠름
- 세 번째 테스트에서는 MI300X의 vLLM(FP16)과 TensorRT-LLM(FP8)과 비교함: 1.7초대 1.6초로 H100이 조금 더 빠름
- FP8을 사용하기 위해서는 TensorRT-LLM의 폐쇄형 시스템과 함께 FP16을 버려야 하며, 본질적으로 vLLM을 영원히 버려야 한다는 점도 인정해야 함