Meta의 GenAI 인프라 구축

(engineering.fb.com)

4P by GN⁺ 2024-03-13 | ★ favorite | 댓글 1개

메타는 AI의 미래를 위한 주요 투자의 일환으로, 24576개의 GPU 클러스터 두 개를 발표함
- 하드웨어, 네트워크, 스토리지, 디자인, 성능 및 소프트웨어에 대한 세부 정보를 공유
- 이 클러스터 디자인은 Llama 3 트레이닝에 사용됨
메타는 오픈 컴퓨팅과 오픈 소스에 전념
- Grand Teton, OpenRack 및 PyTorch를 기반으로 이런 클러스터를 구축하고 업계 전반에 걸쳐 개방형 혁신을 지속적으로 추진
이번 발표는 야심찬 인프라 로드맵의 한 단계
- 2024년 말까지 거의 600,000개의 H100에 해당하는 컴퓨팅 성능을 갖춘 포트폴리오의 일부로 350,000개의 NVIDIA H100 GPU를 포함하는 인프라 구축을 계속해서 확장하는 것을 목표로 함

메타의 대규모 AI 클러스터에 대한 통찰

메타의 장기적인 비전은 모든 사람이 혜택을 받을 수 있도록 개방적이고 책임감 있게 구축된 인공 일반 지능(AGI)을 만드는 것임
AGI를 향한 진전은 새로운 제품, 앱의 새로운 AI 기능, 그리고 새로운 AI 중심 컴퓨팅 장치를 만들어냄
메타는 AI 인프라 구축의 오랜 역사를 가지고 있으며, 2022년에 16,000개의 NVIDIA A100 GPU를 특징으로 하는 AI 연구용 슈퍼클러스터(RSC)에 대한 세부 정보를 처음 공유했음

내부 구조

새로운 AI 클러스터는 RSC에서 얻은 성공과 교훈을 바탕으로 구축됨
연구자와 개발자의 경험과 생산성에 중점을 두고, 고성능 네트워크 패브릭의 효율성과 주요 스토리지 결정을 통해 더 크고 복잡한 모델을 지원함

네트워크

메타는 하루에 수십조 번의 AI 모델 실행을 처리함
대규모 서비스를 제공하기 위해 고도로 발전된 유연한 인프라가 필요함
메타는 자체 하드웨어, 소프트웨어 및 네트워크 패브릭을 맞춤 설계하여 AI 연구자들의 경험을 최적화하고 데이터 센터의 효율적인 운영을 보장함

컴퓨팅

두 클러스터는 메타가 내부적으로 설계한 오픈 GPU 하드웨어 플랫폼인 Grand Teton을 사용하여 구축됨
Grand Teton은 전력, 제어, 컴퓨트 및 패브릭 인터페이스를 하나의 섀시에 통합하여 전반적인 성능, 신호 무결성 및 열 성능을 향상시킴

스토리지

AI 트레이닝에 있어 스토리지는 중요한 역할을 하지만 가장 적게 언급되는 측면 중 하나임
메타의 'Tectonic' 분산 스토리지 솔루션의 버전을 플래시 미디어에 최적화
- 자체 개발한 FUSE(Linux Filesystem in Userspace) API를 통해 AI 클러스터의 데이터 및 체크포인팅 요구 사항을 해결함
- 수천 개의 GPU가 동기화된 방식으로 체크포인트를 저장하고 로드할 수 있으며 데이터 로딩에 필요한 유연하고 처리량이 높은 엑사바이트 규모의 스토리지를 제공
Hammerspace 와 협력하여 병렬 네트워크 파일 시스템(NFS) 배포를 공동 개발

성능

대규모 AI 클러스터를 구축할 때 성능과 사용 편의성을 동시에 극대화하는 것이 중요한 원칙임
AI 시스템의 한계를 뛰어넘으면서 설계 확장 능력을 테스트할 수 있는 가장 좋은 방법은 단순히 시스템을 구축하고, 최적화하고, 실제로 테스트하는 것
메타는 시스템을 구축하고 최적화하며 실제로 테스트하여 설계의 확장 가능성을 테스트함
AI 워크로드를 지원하는 기본 AI 프레임워크인 PyTorch를 계속 발전시켜 수십, 심지어는 수십만 건의 GPU 교육에 대비할 수 있도록 하고 있음

개방형 AI 혁신에 대한 헌신

메타는 AI 소프트웨어와 하드웨어에서의 오픈 혁신에 대한 헌신을 유지함
OCP의 창립 멤버로서 개방형 하드웨어 혁신을 계속 지원하고 있으며 OCP 커뮤니티에 Grand Teton 및 Open Rack과 같은 디자인을 제공
또한 업계의 많은 부분을 지원하는 AI 소프트웨어 프레임워크인 PyTorch 의 최대이자 주요 기여자
오픈 소스 하드웨어와 소프트웨어는 대규모 문제를 해결하는 데 도움이 되는 중요한 도구로 여겨짐

메타의 AI 인프라의 미래

이 두 AI 트레이닝 클러스터 디자인은 AI의 미래를 위한 더 큰 로드맵의 일부임
메타는 2024년 말까지 600,000개의 H100에 해당하는 컴퓨팅 성능을 갖춘 포트폴리오의 일부로 350,000개의 NVIDIA H100을 포함하는 인프라를 계속해서 확장할 계획

GN⁺의 의견

메타가 발표한 24k GPU 클러스터는 AI 연구와 개발에 있어 중요한 발전을 의미하며, 특히 대규모 AI 모델 트레이닝에 필요한 강력한 컴퓨팅 리소스를 제공함
이러한 인프라는 AI 모델의 복잡성과 크기가 계속해서 증가함에 따라 연구자들이 더욱 혁신적인 AI 솔루션을 개발할 수 있는 기반을 마련함
메타의 오픈 소스 및 오픈 컴퓨트에 대한 헌신은 산업 전반에 걸쳐 혁신을 촉진하고, 다른 조직들이 이러한 기술을 활용하여 자체 AI 솔루션을 개발하는 데 도움이 될 수 있음
그러나 이러한 대규모 클러스터는 막대한 에너지 소비와 관련된 환경적 영향을 고려해야 하며, 이는 지속 가능성에 대한 중요한 고려 사항이 될 수 있음
메타의 이러한 발표는 AI 기술의 미래에 대한 흥미로운 통찰을 제공하며, AI의 발전이 사회와 산업에 미칠 영향에 대해 더 깊이 생각해 볼 기회를 제공함

▲

GN⁺ 2024-03-13 [-]

Hacker News 의견

float8 언급 및 FLOPs 증가
- float8이 언급되었으며, 이로 인해 FLOPs가 2배 증가함.
- xformers는 이제 2:4 희소성을 지원하여 FLOPs가 추가로 2배 증가할 수 있음.
- Llama3는 MLP에 float8과 2:4 희소성을 사용하여 H100 float16 FLOPs의 4배를 사용할 수도 있음.
- PyTorch는 fp8을 실험적으로 지원하고 있으나, 정밀도 문제로 인해 float8에서 attention을 수행하기는 여전히 복잡함.
- 아마도 attention은 float16으로, RoPE/layernorms는 float16/float32로, 그 외 모든 것은 float8로 처리될 수 있음.
닷컴 시대와 AI 시대의 비교
- 닷컴 시대를 경험한 한 사람은 AI 시대가 모델 훈련에 드는 막대한 자본 비용 때문에 다소 낙담함을 느낌.
- 닷컴 시대 초반에는 상대적으로 적은 인프라 비용으로 누구나 전자상거래 사이트를 시작할 수 있었음.
- 현재는 메타, 구글, 마이크로소프트, 오픈AI 등 대규모 기업만이 AI 모델을 구축할 수 있는 것처럼 보임.
컴퓨팅 파워와 엔지니어링 시간의 관계
- 페이스북이 컴퓨팅 파워를 10배 늘릴 수 있다면, 전체 스택을 재설계해야 할지, 100배는 어떨지에 대한 관심.
- 각 재설계가 단순한 변경인지, 아니면 훨씬 더 복잡한 작업인지에 대한 의문.
- 클러스터 내부에 대한 기술적 이해가 표면적인 수준이라, 관련 경험이 있는 사람의 의견에 대한 호기심.
파이프라인 최적화 작업에 대한 관심
- 파이프라인 최적화 작업에 참여하고 싶어하는 사람이 어떻게 시작해야 하는지에 대한 질문.
- 머신러닝 과학자가 C/C++ 및 인프라 지식을 가지고 필요할 때 시스템으로 '내려가는' 것인지, 아니면 CUDA/SIMD 전문가가 '올라와서' 머신러닝 작업을 하는 것인지에 대한 궁금증.
메타의 엔지니어링 능력
- 메타는 부정적인 압력에도 불구하고 엔지니어링 분야에서 강력한 성과를 보임.
- 메타가 이러한 엔지니어링 능력을 어떻게 수익화할 계획인지에 대한 의문.
엔지니어링 및 인프라에 대한 역사적 관점
- DLRM 논문과 페이스북의 초기 디스어그리게이티드 랙과 SDN에 대한 언급.
- 2018년에 이미 SSD와 DRAM을 랙의 다른 곳에 배치하면서 큰 신경망을 사용하여 추천 시스템과 순위 매기기를 수행함.
- 클릭 예측 모델에 대한 언급과 인텔 AVX-2를 사용한 HOGWILD 훈련 방법에 대한 놀라움.
- 메타가 인프라 설계와 SKU 설계에 있어서 여전히 최고의 역량을 가지고 있음을 강조.
메타의 AI 워크로드 경쟁 가능성
- 메타가 AWS, MSFT, GOOG와 AI 워크로드 분야에서 경쟁할 가능성에 대한 궁금증.
H100 GPU의 비용
- 메타가 H100 GPU에 지불하는 금액에 대한 추정.
- 350,000개의 NVIDIA H100을 $10k에 구매한다면 총 비용은 $3.5b가 될 것임.
메타의 AI 혁신에 대한 개방적인 태도
- 메타가 AI 혁신에 대한 개방적인 태도를 보이고 있음을 인식함.
메타의 장기적인 비전과 AGI
- 메타의 장기적인 비전은 인공 일반 지능(AGI)을 구축하는 것임.

답변달기