6P by neo 5달전 | favorite | 댓글 1개
  • Meta는 대규모 언어 모델(LLM) 학습을 위해 대규모 계산 능력이 필요함
  • 전통적인 AI 모델 학습은 많은 수의 모델을 학습시켰지만, 비교적 적은 수의 GPU가 필요했음
  • 생성형 AI(GenAI)의 등장으로 작업 수는 줄었지만, 매우 큰 작업이 필요해짐

대규모 모델 훈련의 도전 과제

  • 하드웨어 신뢰성: 하드웨어 고장으로 인한 훈련 중단을 최소화하기 위해 엄격한 테스트와 품질 관리 필요함.
  • 고장 시 빠른 복구: 하드웨어 고장이 발생하면 빠르게 복구할 수 있어야 함. 재스케줄링 오버헤드를 줄이고 빠른 훈련 재초기화 필요함.
  • 훈련 상태의 효율적 보존: 고장 시 훈련 상태를 효율적으로 저장하고 복구할 수 있어야 함.
  • GPU 간 최적의 연결성: 대규모 모델 훈련은 GPU 간 데이터 전송이 중요함. 이를 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.

인프라 스택의 모든 계층을 개선하는 것이 중요함

훈련 소프트웨어

  • 연구자들이 PyTorch와 같은 오픈 소스를 사용하여 빠르게 연구에서 생산으로 전환할 수 있도록 지원함.
  • 대규모 훈련을 위한 새로운 알고리즘과 기술 개발 및 새로운 소프트웨어 도구와 프레임워크 통합함.

스케줄링

  • 자원을 최적화하기 위해 복잡한 알고리듬을 사용하여 작업의 필요에 따라 자원을 할당하고 동적으로 스케줄링함.

하드웨어

  • 대규모 모델 훈련을 처리하기 위해 고성능 하드웨어 필요함.
  • 기존 하드웨어를 최적화하고, NVIDIA H100 GPU를 사용한 Grand Teton 플랫폼을 수정하여 GPU의 TDP를 700W로 증가시키고 HBM3로 전환함.

데이터 센터 배치

  • GPU와 시스템을 데이터 센터에 최적 배치하여 자원(전력, 냉각, 네트워킹 등)을 최적화함.
  • 최대 컴퓨팅 밀도를 위해 GPU 랙을 최대한 많이 배치함.

신뢰성

  • 하드웨어 고장 시 다운타임을 최소화하기 위해 감지 및 복구 계획 수립함.
  • 자주 발생하는 고장 모드: GPU 인식 불가, DRAM & SRAM UCE, 하드웨어 네트워크 케이블 문제.

네트워크

  • 대규모 모델 훈련을 위해 고속 네트워크 인프라와 효율적인 데이터 전송 프로토콜 필요함.
  • RoCE와 InfiniBand 두 가지 네트워크 클러스터를 구축하여 운영 경험을 통해 학습함.

스토리지

  • 대규모 데이터 저장을 위해 고용량, 고속 스토리지 기술에 투자하고 특정 작업에 맞는 새로운 데이터 저장 솔루션 개발함.

향후 전망

  • 수십만 개의 GPU를 사용하여 더 많은 데이터를 처리하고 더 긴 거리와 지연 시간을 다룰 예정임.
  • 새로운 하드웨어 기술과 GPU 아키텍처를 채택하고 인프라를 발전시킬 계획임.
  • AI의 진화하는 환경을 탐색하며 가능한 한계를 넘어서기 위해 노력할 것임.
Hacker News 의견
  • GPU 연결 문제: GPU가 PCIe 버스에서 인식되지 않는 문제를 언급함.
  • 냉각 인프라: 기존의 공랭 환경을 유지하면서 기계적 및 열 설계를 변경해야 했음.
  • 시간 제약: 시간 제약이 모델의 전반적인 품질에 영향을 미쳤음.
  • Meta의 검색 기능: Meta가 새로운 LLM을 훈련시키기보다는 검색 기능을 개선했으면 좋겠다는 의견.
  • 데이터 수집 방법: Meta가 데이터를 어떻게 수집하고 준비하는지, 특히 PII(개인 식별 정보)를 어떻게 정리하는지 궁금해함.
  • 비용 문제: LLM이 클라우드 외의 애플리케이션에서는 비용 문제로 인해 비현실적일 수 있다고 언급함.
  • 클러스터 구축: 두 개의 24k 클러스터를 구축하여 운영 경험을 배우려는 시도가 인상적임.
  • 작업 스케줄링: 대규모 머신 배열에서 작업을 스케줄링하는 방법에 대한 구체적인 정보가 부족함.
  • 수익 창출: Meta가 LLM을 대규모로 활용하여 어떻게 수익을 창출할지 명확하지 않음.
  • Google의 AI 우위: Google이 커스텀 실리콘을 통해 AI 분야에서 우위를 점하고 있다는 의견.
  • 도메인 이름: Meta의 도메인이 여전히 engineering.fb.com인 것이 흥미로움.