- "arXiv 프리프린트에 약 $10M(130억원)을 태우는 방법"
- 최근 딥마인드(GDM)가 "Scaling Exponents Across Parameterizations and Optimizers" 라는 훌륭한 논문을 발표
- 이 논문은 10,000회 이상의 LLM 트레이닝 러닝을 수행하여 다양한 환경에서 최적의 하이퍼파라미터를 도출함
- 논문을 읽은 후 실험 결과를 모두 집계하여 논문을 재현하는데 필요한 총 연산량 비용 계산을 시도해봄
- 결과적으로 총 필요 FLOPS는 5.42e24 이고, 비용은 $12.9M(178억원) ($3/H100/시간당 으로 측정시)
- 큰 틀에서 보면 5.42e24는 "그렇게 크지 않은" 규모임
- 이는 라마 3에 사용된 컴퓨팅의 15%도 되지 않으며, 100,000개의 H100 클러스터로 이 모든 실험을 단 2일 만에 수행할 수 있음
H100 가치에 대한 부연 설명
- 구글 딥마인드 출신 논문이므로 거의 확실히 TPU로 실험을 진행했을 것
- 논문에 int8 사용 언급이 없으니 아마도 bfloat16 정밀도를 사용했을 것으로 추정됨
- H100-SXM은 989.40TFLOP/s의 16비트 텐서 연산 성능 보유
- 최근 PyTorch 블로그와 torchtitan에서 H100 MFU를 40% 정도로 보고함
- H100 노드 비용은 시간당 $3 정도로 추산됨(어디서 쓰냐에 따라 조금씩 다르므로 평균치)