- "Behind the Compute" 시리즈는 Stability AI의 사업 기록이자, 다른 이들이 생성 AI의 힘을 활용할 수 있도록 통찰력을 제공하는 블로그 포스트 시리즈
- 이번 편에서는 다양한 컴퓨팅 솔루션의 성능 벤치마크와 이점에 대해 더 깊이 탐구함
성능 분석
- 두 가지 모델을 훈련시키며 성능 분석을 수행했으며, 그 중 하나는 매우 기대되는 Stable Diffusion 3임
- Intel Gaudi 2 가속기와 Nvidia의 A100 및 H100을 비교하여 훈련 속도를 측정함
- 이들은 스타트업과 개발자들이 대규모 언어 모델을 훈련시키는 데 가장 일반적으로 선택하는 옵션임
모델 1: Stable Diffusion 3
- Stable Diffusion 3은 곧 초기 미리보기 단계에 들어갈 예정인 가장 능력 있는 텍스트-이미지 모델임
- Stable Diffusion 3의 공개 버전은 800M에서 8B 파라미터 범위의 크기로 제공될 예정
- 2B 파라미터 버전을 사용한 분석에서는 기대 이상의 결과를 보여줌
- 2B Multimodal Diffusion Transformer (MMDiT) 아키텍처 모델의 훈련 처리량을 측정했으며, 이는 d=24, BFloat16 혼합 정밀도, 최적화된 어텐션(xFormers for A100 및 FusedSDPA for Intel Gaudi)을 사용
- 이 모델 버전을 MMDiT-ps2-d24라고 함
- 2개의 노드, 총 16개의 가속기(Gaudi/GPU)를 통한 훈련 벤치마크 결과를 살펴보면, Gaudi 2 시스템은 가속기 당 배치 크기를 16으로 유지하며 초당 927개의 훈련 이미지를 처리함 - H100-80GB보다 1.5배 빠름
- Gaudi 2의 96GB 고대역폭 메모리(HBM2E)를 활용하여 가속기 당 배치 크기를 32로 늘려 훈련 속도를 초당 1,254개 이미지로 더욱 향상시킴
- 32개의 Gaudi 2 노드(총 256개의 가속기)로 분산 훈련을 확장하면서 계속해서 매우 경쟁력 있는 성능을 측정
- 이 구성에서 Gaudi 2 클러스터는 A100-80GB GPU에 비해 초당 3배 이상 많은 이미지를 처리함. 이는 A100이 매우 최적화된 소프트웨어 스택을 가지고 있음에도 불구하고 인상적임
- Stable Diffusion 3 8B 파라미터 모델에 대한 추론 테스트에서 Gaudi 2 칩은 기본 PyTorch를 사용하여 Nvidia A100 칩과 유사한 추론 속도를 제공함
- 그러나 TensorRT 최적화를 통해 A100 칩은 Gaudi 2보다 40% 빠르게 이미지를 생성
- 추가 최적화를 통해 Gaudi 2가 이 모델에서 A100을 곧 능가할 것으로 예상
- 기본 PyTorch를 사용한 이전 테스트에서 Gaudi 2는 1024x1024 이미지를 30단계에 걸쳐 3.2초 만에 생성하는 반면, A100에서는 PyTorch를 사용하여 3.6초, TensorRT를 사용하여 2.7초가 걸림
- Gaudi 2의 더 높은 메모리와 빠른 상호 연결 및 기타 설계 고려 사항으로 인해 차세대 미디어 모델을 뒷받침하는 Diffusion Transformer 아키텍처를 실행하는 것이 경쟁력이 있음
모델 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B는 LLaMA 2 70B의 미세 조정 버전으로, ChatGPT 3.5를 특정 벤치마크에서 능가한 최초의 오픈 모델인 Stable Beluga 2를 기반으로 함
- 256개의 Gaudi 2 가속기에서 이 훈련 벤치마크를 수행했으며, 추가 최적화 없이 PyTorch 코드를 그대로 실행하여 평균 총 처리량이 116,777 토큰/초임을 측정함
- 이는 FP16 데이터 유형, 전역 배치 크기 1024, 그라데이션 축적 단계 2, 마이크로 배치 크기 2를 사용함
- Gaudi 2에서 70B 언어 모델에 대한 추론 테스트를 수행했을 때, 입력 토큰 크기 128, 출력 토큰 크기 2048을 사용하여 가속기 당 673 토큰/초를 생성함
- TensorRT-LLM과 비교할 때, Gaudi 2는 A100의 525 토큰/초보다 28% 빠름
- FP8로 더 빠른 속도 개선을 기대함
컴퓨팅 솔루션에 대한 수요
- 우리와 같은 회사들은 점점 더 강력하고 효율적인 컴퓨팅 솔루션에 대한 수요가 증가하고 있음
- 우리의 발견은 Gaudi 2와 같은 대안의 필요성을 강조함. 이는 다른 7nm 칩보다 우수한 성능을 제공할 뿐만 아니라, 가격 대비 성능 비율, 저렴한 가격, 감소된 리드 타임 등 시장의 중요한 요구 사항을 해결함
- 컴퓨팅 옵션에서의 선택 기회는 참여와 혁신을 넓히고, 고급 AI 기술을 모든 사람에게 더 접근 가능하게 만듦