4P by neo 2달전 | favorite | 댓글 1개
  • "arXiv 프리프린트에 약 $10M(130억원)을 태우는 방법"
  • 최근 딥마인드(GDM)가 "Scaling Exponents Across Parameterizations and Optimizers" 라는 훌륭한 논문을 발표
    • 이 논문은 10,000회 이상의 LLM 트레이닝 러닝을 수행하여 다양한 환경에서 최적의 하이퍼파라미터를 도출함
  • 논문을 읽은 후 실험 결과를 모두 집계하여 논문을 재현하는데 필요한 총 연산량 비용 계산을 시도해봄
  • 결과적으로 총 필요 FLOPS는 5.42e24 이고, 비용은 $12.9M(178억원) ($3/H100/시간당 으로 측정시)
    • 큰 틀에서 보면 5.42e24는 "그렇게 크지 않은" 규모임
    • 이는 라마 3에 사용된 컴퓨팅의 15%도 되지 않으며, 100,000개의 H100 클러스터로 이 모든 실험을 단 2일 만에 수행할 수 있음

H100 가치에 대한 부연 설명

  • 구글 딥마인드 출신 논문이므로 거의 확실히 TPU로 실험을 진행했을 것
  • 논문에 int8 사용 언급이 없으니 아마도 bfloat16 정밀도를 사용했을 것으로 추정됨
  • H100-SXM은 989.40TFLOP/s의 16비트 텐서 연산 성능 보유
  • 최근 PyTorch 블로그와 torchtitan에서 H100 MFU를 40% 정도로 보고함
  • H100 노드 비용은 시간당 $3 정도로 추산됨(어디서 쓰냐에 따라 조금씩 다르므로 평균치)

가격보다 사용된 에너지의 총량이 궁금해지네요.