6P by xguru 8달전 | favorite | 댓글 1개
  • "Behind the Compute" 시리즈는 Stability AI의 사업 기록이자, 다른 이들이 생성 AI의 힘을 활용할 수 있도록 통찰력을 제공하는 블로그 포스트 시리즈
  • 이번 편에서는 다양한 컴퓨팅 솔루션의 성능 벤치마크와 이점에 대해 더 깊이 탐구함

성능 분석

  • 두 가지 모델을 훈련시키며 성능 분석을 수행했으며, 그 중 하나는 매우 기대되는 Stable Diffusion 3임
  • Intel Gaudi 2 가속기와 Nvidia의 A100 및 H100을 비교하여 훈련 속도를 측정함
  • 이들은 스타트업과 개발자들이 대규모 언어 모델을 훈련시키는 데 가장 일반적으로 선택하는 옵션임

모델 1: Stable Diffusion 3

  • Stable Diffusion 3은 곧 초기 미리보기 단계에 들어갈 예정인 가장 능력 있는 텍스트-이미지 모델임
  • Stable Diffusion 3의 공개 버전은 800M에서 8B 파라미터 범위의 크기로 제공될 예정
  • 2B 파라미터 버전을 사용한 분석에서는 기대 이상의 결과를 보여줌
  • 2B Multimodal Diffusion Transformer (MMDiT) 아키텍처 모델의 훈련 처리량을 측정했으며, 이는 d=24, BFloat16 혼합 정밀도, 최적화된 어텐션(xFormers for A100 및 FusedSDPA for Intel Gaudi)을 사용
  • 이 모델 버전을 MMDiT-ps2-d24라고 함
  • 2개의 노드, 총 16개의 가속기(Gaudi/GPU)를 통한 훈련 벤치마크 결과를 살펴보면, Gaudi 2 시스템은 가속기 당 배치 크기를 16으로 유지하며 초당 927개의 훈련 이미지를 처리함 - H100-80GB보다 1.5배 빠름
  • Gaudi 2의 96GB 고대역폭 메모리(HBM2E)를 활용하여 가속기 당 배치 크기를 32로 늘려 훈련 속도를 초당 1,254개 이미지로 더욱 향상시킴
  • 32개의 Gaudi 2 노드(총 256개의 가속기)로 분산 훈련을 확장하면서 계속해서 매우 경쟁력 있는 성능을 측정
  • 이 구성에서 Gaudi 2 클러스터는 A100-80GB GPU에 비해 초당 3배 이상 많은 이미지를 처리함. 이는 A100이 매우 최적화된 소프트웨어 스택을 가지고 있음에도 불구하고 인상적임
  • Stable Diffusion 3 8B 파라미터 모델에 대한 추론 테스트에서 Gaudi 2 칩은 기본 PyTorch를 사용하여 Nvidia A100 칩과 유사한 추론 속도를 제공함
  • 그러나 TensorRT 최적화를 통해 A100 칩은 Gaudi 2보다 40% 빠르게 이미지를 생성
  • 추가 최적화를 통해 Gaudi 2가 이 모델에서 A100을 곧 능가할 것으로 예상
  • 기본 PyTorch를 사용한 이전 테스트에서 Gaudi 2는 1024x1024 이미지를 30단계에 걸쳐 3.2초 만에 생성하는 반면, A100에서는 PyTorch를 사용하여 3.6초, TensorRT를 사용하여 2.7초가 걸림
  • Gaudi 2의 더 높은 메모리와 빠른 상호 연결 및 기타 설계 고려 사항으로 인해 차세대 미디어 모델을 뒷받침하는 Diffusion Transformer 아키텍처를 실행하는 것이 경쟁력이 있음

모델 2: Stable Beluga 2.5 70B

  • Stable Beluga 2.5 70B는 LLaMA 2 70B의 미세 조정 버전으로, ChatGPT 3.5를 특정 벤치마크에서 능가한 최초의 오픈 모델인 Stable Beluga 2를 기반으로 함
  • 256개의 Gaudi 2 가속기에서 이 훈련 벤치마크를 수행했으며, 추가 최적화 없이 PyTorch 코드를 그대로 실행하여 평균 총 처리량이 116,777 토큰/초임을 측정함
  • 이는 FP16 데이터 유형, 전역 배치 크기 1024, 그라데이션 축적 단계 2, 마이크로 배치 크기 2를 사용함
  • Gaudi 2에서 70B 언어 모델에 대한 추론 테스트를 수행했을 때, 입력 토큰 크기 128, 출력 토큰 크기 2048을 사용하여 가속기 당 673 토큰/초를 생성함
  • TensorRT-LLM과 비교할 때, Gaudi 2는 A100의 525 토큰/초보다 28% 빠름
  • FP8로 더 빠른 속도 개선을 기대함

컴퓨팅 솔루션에 대한 수요

  • 우리와 같은 회사들은 점점 더 강력하고 효율적인 컴퓨팅 솔루션에 대한 수요가 증가하고 있음
  • 우리의 발견은 Gaudi 2와 같은 대안의 필요성을 강조함. 이는 다른 7nm 칩보다 우수한 성능을 제공할 뿐만 아니라, 가격 대비 성능 비율, 저렴한 가격, 감소된 리드 타임 등 시장의 중요한 요구 사항을 해결함
  • 컴퓨팅 옵션에서의 선택 기회는 참여와 혁신을 넓히고, 고급 AI 기술을 모든 사람에게 더 접근 가능하게 만듦

Hacker News 의견

  • TPUs가 A100s를 쉽게 이긴다는 사실이 흥미로움. TPUs를 사용하여 Stable Diffusion fine-tuning을 제공하는 dreamlook.ai에서 사람들은 제공 속도와 비용에 놀라워함. 하지만 큰 비밀은 없으며, 단순히 작업 단위로 더 빠르고 저렴한 하드웨어를 사용함.
  • 새로운 하드웨어로 모델 훈련에 경쟁을 촉진하는 것은 좋지만, 이러한 기계의 이용 가능성은 매우 제한적임. 주요 클라우드 제공업체가 Gaudi2 VM을 시간당 대여하는 것을 허용하지 않으며, 인텔 자체 사이트는 40k USD 이상의 8x GPU 서버를 구매하도록 안내함. 현재는 여전히 Nvidia가 소프트웨어 스택과 가용성 면에서 우위를 점하고 있지만, 올해 말까지는 변화가 시작될 수도 있음.
  • NVIDIA의 H100에서 거의 92%의 이윤을 남김. 더 많은 칩 회사들이 "ML 가속기" 분야에 뛰어들지 않은 것이 놀라움.
  • 하드웨어 메트릭이 3배 더 나아지지 않았음에도 3배 더 빠를 수 있는 이유에 대한 분석이 있으면 실제로 유용하고 통찰력 있는 정보가 될 것임. 그렇지 않으면 단순한 광고에 불과함.
  • H100이 거의 1년 전에 출시되었으므로 인텔이 작년 모델과 경쟁할 준비가 되었다면 괜찮음. CUDA가 매우 중요한 부분이며, 하드웨어와 소프트웨어 모두 함께 성숙하는 데 10년이 걸림을 기억해야 함.
  • H100이 이미 약 1년 동안 대량으로 출하되었음. Gaudi2도 비슷한 규모로 이용 가능한가? NVIDIA가 비슷한 시간대에 경쟁 부품보다 확실한 리드를 하지 못할 때까지는 NVIDIA를 절대로 무시해서는 안 됨.
  • Gaudi와 Ponte Vecchio가 모두 존재하는 이유에 대해 인텔 AXG 직원을 포함하여 아무도 만족스럽게 대답할 수 없었음. 인텔이 한 제품 라인에 집중하는 것이 성공 가능성을 높이지 않을까?
  • AI 과학자들이 요즘 어떻게 일하는지 궁금함. 정말로 Cudakernels를 해킹하나, 아니면 pytorch와 같은 고급 툴킷으로 모델을 연결하나? 후자라면, pytorch가 다양한 하드웨어에 최적화된 백엔드를 제공한다면, CUDA가 정말로 큰 장벽인가?