# 구글 딥마인드 논문의 비용 계산 해보기

> Clean Markdown view of GeekNews topic #16106. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16106](https://news.hada.io/topic?id=16106)
- GeekNews Markdown: [https://news.hada.io/topic/16106.md](https://news.hada.io/topic/16106.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-07-31T10:33:13+09:00
- Updated: 2024-07-31T10:33:13+09:00
- Original source: [152334H.github.io](https://152334H.github.io/blog/scaling-exponents/)
- Points: 4
- Comments: 1

## Summary

구글 딥마인드의 최신 논문 "Scaling Exponents Across Parameterizations and Optimizers"는 다양한 환경에서 최적의 하이퍼파라미터를 도출하기 위해 10,000회 이상의 LLM 트레이닝을 수행한 결과를 담고 있습니다. 이 논문을 재현하는 데 필요한 총 연산량을 추산해보니 총 필요 FLOPS는 5.42e24 이고, 비용은 $12.9M(178억원) ($3/H100/시간당) 라고 합니다. 논문 하나 쓰는데 170억이 들었다는 것이네요. 물론 자신들의 비용 효율화를 위해서 작업 하다 보니 이런 논문이 나온 것이겠지만, 규모의 차이가 점점 커져서 국내 AI 산업은 어쩌나 하는 생각이 듭니다.

## Topic Body

- "arXiv 프리프린트에 약 $10M(130억원)을 태우는 방법"  
- 최근 딥마인드(GDM)가 "Scaling Exponents Across Parameterizations and Optimizers" 라는 훌륭한 논문을 발표   
  - 이 논문은 10,000회 이상의 LLM 트레이닝 러닝을 수행하여 다양한 환경에서 최적의 하이퍼파라미터를 도출함  
- 논문을 읽은 후 실험 결과를 모두 집계하여 논문을 재현하는데 필요한 총 연산량 비용 계산을 시도해봄   
- 결과적으로 총 필요 FLOPS는 **5.42e24** 이고, 비용은 **$12.9M(178억원)**  ($3/H100/시간당 으로 측정시)  
  - 큰 틀에서 보면 5.42e24는 "그렇게 크지 않은" 규모임  
  - 이는 라마 3에 사용된 컴퓨팅의 15%도 되지 않으며, 100,000개의 H100 클러스터로 이 모든 실험을 단 2일 만에 수행할 수 있음   
  
### H100 가치에 대한 부연 설명  
- 구글 딥마인드 출신 논문이므로 거의 확실히 TPU로 실험을 진행했을 것   
- 논문에 int8 사용 언급이 없으니 아마도 bfloat16 정밀도를 사용했을 것으로 추정됨   
- H100-SXM은 989.40TFLOP/s의 16비트 텐서 연산 성능 보유  
- 최근 PyTorch 블로그와 torchtitan에서 H100 MFU를 40% 정도로 보고함   
- H100 노드 비용은 시간당 $3 정도로 추산됨(어디서 쓰냐에 따라 조금씩 다르므로 평균치)

## Comments


### Comment 27733

- Author: parkindani
- Created: 2024-08-01T10:18:32+09:00
- Points: 1

가격보다 사용된 에너지의 총량이 궁금해지네요.