# 메타의 대규모 언어 모델 훈련 방법

> Clean Markdown view of GeekNews topic #15327. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15327](https://news.hada.io/topic?id=15327)
- GeekNews Markdown: [https://news.hada.io/topic/15327.md](https://news.hada.io/topic/15327.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-06-13T19:33:20+09:00
- Updated: 2024-06-13T19:33:20+09:00
- Original source: [engineering.fb.com](https://engineering.fb.com/2024/06/12/data-infrastructure/training-large-language-models-at-scale-meta/)
- Points: 6
- Comments: 1

## Topic Body

- Meta는 대규모 언어 모델(LLM) 학습을 위해 대규모 계산 능력이 필요함  
- 전통적인 AI 모델 학습은 많은 수의 모델을 학습시켰지만, 비교적 적은 수의 GPU가 필요했음  
- 생성형 AI(GenAI)의 등장으로 작업 수는 줄었지만, 매우 큰 작업이 필요해짐  
  
#### 대규모 모델 훈련의 도전 과제  
- **하드웨어 신뢰성**: 하드웨어 고장으로 인한 훈련 중단을 최소화하기 위해 엄격한 테스트와 품질 관리 필요함.  
- **고장 시 빠른 복구**: 하드웨어 고장이 발생하면 빠르게 복구할 수 있어야 함. 재스케줄링 오버헤드를 줄이고 빠른 훈련 재초기화 필요함.  
- **훈련 상태의 효율적 보존**: 고장 시 훈련 상태를 효율적으로 저장하고 복구할 수 있어야 함.  
- **GPU 간 최적의 연결성**: 대규모 모델 훈련은 GPU 간 데이터 전송이 중요함. 이를 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.  
  
#### 인프라 스택의 모든 계층을 개선하는 것이 중요함  
##### 훈련 소프트웨어  
- 연구자들이 PyTorch와 같은 오픈 소스를 사용하여 빠르게 연구에서 생산으로 전환할 수 있도록 지원함.  
- 대규모 훈련을 위한 새로운 알고리즘과 기술 개발 및 새로운 소프트웨어 도구와 프레임워크 통합함.  
  
##### 스케줄링  
- 자원을 최적화하기 위해 복잡한 알고리듬을 사용하여 작업의 필요에 따라 자원을 할당하고 동적으로 스케줄링함.  
  
##### 하드웨어  
- 대규모 모델 훈련을 처리하기 위해 고성능 하드웨어 필요함.  
- 기존 하드웨어를 최적화하고, NVIDIA H100 GPU를 사용한 Grand Teton 플랫폼을 수정하여 GPU의 TDP를 700W로 증가시키고 HBM3로 전환함.  
  
##### 데이터 센터 배치  
- GPU와 시스템을 데이터 센터에 최적 배치하여 자원(전력, 냉각, 네트워킹 등)을 최적화함.  
- 최대 컴퓨팅 밀도를 위해 GPU 랙을 최대한 많이 배치함.  
  
##### 신뢰성  
- 하드웨어 고장 시 다운타임을 최소화하기 위해 감지 및 복구 계획 수립함.  
- 자주 발생하는 고장 모드: GPU 인식 불가, DRAM & SRAM UCE, 하드웨어 네트워크 케이블 문제.  
  
##### 네트워크  
- 대규모 모델 훈련을 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.  
- RoCE와 InfiniBand 두 가지 네트워크 클러스터를 구축하여 운영 경험을 통해 학습함.  
  
##### 스토리지  
- 대규모 데이터 저장을 위해 고용량, 고속 스토리지 기술에 투자하고 특정 작업에 맞는 새로운 데이터 저장 솔루션 개발함.  
  
#### 향후 전망  
- 수십만 개의 GPU를 사용하여 더 많은 데이터를 처리하고 더 긴 거리와 지연 시간을 다룰 예정임.  
- 새로운 하드웨어 기술과 GPU 아키텍처를 채택하고 인프라를 발전시킬 계획임.  
- AI의 진화하는 환경을 탐색하며 가능한 한계를 넘어서기 위해 노력할 것임.

## Comments


### Comment 26242

- Author: neo
- Created: 2024-06-13T19:33:20+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40664339) 
- **GPU 연결 문제**: GPU가 PCIe 버스에서 인식되지 않는 문제를 언급함.
- **냉각 인프라**: 기존의 공랭 환경을 유지하면서 기계적 및 열 설계를 변경해야 했음.
- **시간 제약**: 시간 제약이 모델의 전반적인 품질에 영향을 미쳤음.
- **Meta의 검색 기능**: Meta가 새로운 LLM을 훈련시키기보다는 검색 기능을 개선했으면 좋겠다는 의견.
- **데이터 수집 방법**: Meta가 데이터를 어떻게 수집하고 준비하는지, 특히 PII(개인 식별 정보)를 어떻게 정리하는지 궁금해함.
- **비용 문제**: LLM이 클라우드 외의 애플리케이션에서는 비용 문제로 인해 비현실적일 수 있다고 언급함.
- **클러스터 구축**: 두 개의 24k 클러스터를 구축하여 운영 경험을 배우려는 시도가 인상적임.
- **작업 스케줄링**: 대규모 머신 배열에서 작업을 스케줄링하는 방법에 대한 구체적인 정보가 부족함.
- **수익 창출**: Meta가 LLM을 대규모로 활용하여 어떻게 수익을 창출할지 명확하지 않음.
- **Google의 AI 우위**: Google이 커스텀 실리콘을 통해 AI 분야에서 우위를 점하고 있다는 의견.
- **도메인 이름**: Meta의 도메인이 여전히 engineering.fb.com인 것이 흥미로움.