메타의 대규모 언어 모델 훈련 방법

(engineering.fb.com)

6P by GN⁺ 2024-06-13 | ★ favorite | 댓글 1개

Meta는 대규모 언어 모델(LLM) 학습을 위해 대규모 계산 능력이 필요함
전통적인 AI 모델 학습은 많은 수의 모델을 학습시켰지만, 비교적 적은 수의 GPU가 필요했음
생성형 AI(GenAI)의 등장으로 작업 수는 줄었지만, 매우 큰 작업이 필요해짐

대규모 모델 훈련의 도전 과제

하드웨어 신뢰성: 하드웨어 고장으로 인한 훈련 중단을 최소화하기 위해 엄격한 테스트와 품질 관리 필요함.
고장 시 빠른 복구: 하드웨어 고장이 발생하면 빠르게 복구할 수 있어야 함. 재스케줄링 오버헤드를 줄이고 빠른 훈련 재초기화 필요함.
훈련 상태의 효율적 보존: 고장 시 훈련 상태를 효율적으로 저장하고 복구할 수 있어야 함.
GPU 간 최적의 연결성: 대규모 모델 훈련은 GPU 간 데이터 전송이 중요함. 이를 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.

인프라 스택의 모든 계층을 개선하는 것이 중요함

훈련 소프트웨어

연구자들이 PyTorch와 같은 오픈 소스를 사용하여 빠르게 연구에서 생산으로 전환할 수 있도록 지원함.
대규모 훈련을 위한 새로운 알고리즘과 기술 개발 및 새로운 소프트웨어 도구와 프레임워크 통합함.

스케줄링

자원을 최적화하기 위해 복잡한 알고리듬을 사용하여 작업의 필요에 따라 자원을 할당하고 동적으로 스케줄링함.

하드웨어

대규모 모델 훈련을 처리하기 위해 고성능 하드웨어 필요함.
기존 하드웨어를 최적화하고, NVIDIA H100 GPU를 사용한 Grand Teton 플랫폼을 수정하여 GPU의 TDP를 700W로 증가시키고 HBM3로 전환함.

데이터 센터 배치

GPU와 시스템을 데이터 센터에 최적 배치하여 자원(전력, 냉각, 네트워킹 등)을 최적화함.
최대 컴퓨팅 밀도를 위해 GPU 랙을 최대한 많이 배치함.

신뢰성

하드웨어 고장 시 다운타임을 최소화하기 위해 감지 및 복구 계획 수립함.
자주 발생하는 고장 모드: GPU 인식 불가, DRAM & SRAM UCE, 하드웨어 네트워크 케이블 문제.

네트워크

대규모 모델 훈련을 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.
RoCE와 InfiniBand 두 가지 네트워크 클러스터를 구축하여 운영 경험을 통해 학습함.

스토리지

대규모 데이터 저장을 위해 고용량, 고속 스토리지 기술에 투자하고 특정 작업에 맞는 새로운 데이터 저장 솔루션 개발함.

향후 전망

수십만 개의 GPU를 사용하여 더 많은 데이터를 처리하고 더 긴 거리와 지연 시간을 다룰 예정임.
새로운 하드웨어 기술과 GPU 아키텍처를 채택하고 인프라를 발전시킬 계획임.
AI의 진화하는 환경을 탐색하며 가능한 한계를 넘어서기 위해 노력할 것임.

GN⁺ 2024-06-13 [-]

Hacker News 의견

GPU 연결 문제: GPU가 PCIe 버스에서 인식되지 않는 문제를 언급함.
냉각 인프라: 기존의 공랭 환경을 유지하면서 기계적 및 열 설계를 변경해야 했음.
시간 제약: 시간 제약이 모델의 전반적인 품질에 영향을 미쳤음.
Meta의 검색 기능: Meta가 새로운 LLM을 훈련시키기보다는 검색 기능을 개선했으면 좋겠다는 의견.
데이터 수집 방법: Meta가 데이터를 어떻게 수집하고 준비하는지, 특히 PII(개인 식별 정보)를 어떻게 정리하는지 궁금해함.
비용 문제: LLM이 클라우드 외의 애플리케이션에서는 비용 문제로 인해 비현실적일 수 있다고 언급함.
클러스터 구축: 두 개의 24k 클러스터를 구축하여 운영 경험을 배우려는 시도가 인상적임.
작업 스케줄링: 대규모 머신 배열에서 작업을 스케줄링하는 방법에 대한 구체적인 정보가 부족함.
수익 창출: Meta가 LLM을 대규모로 활용하여 어떻게 수익을 창출할지 명확하지 않음.
Google의 AI 우위: Google이 커스텀 실리콘을 통해 AI 분야에서 우위를 점하고 있다는 의견.
도메인 이름: Meta의 도메인이 여전히 engineering.fb.com인 것이 흥미로움.