4P by neo 10달전 | ★ favorite | 댓글 1개
  • 메타는 AI의 미래를 위한 주요 투자의 일환으로, 24576개의 GPU 클러스터 두 개를 발표함
    • 하드웨어, 네트워크, 스토리지, 디자인, 성능 및 소프트웨어에 대한 세부 정보를 공유
    • 이 클러스터 디자인은 Llama 3 트레이닝에 사용됨
  • 메타는 오픈 컴퓨팅과 오픈 소스에 전념
    • Grand Teton, OpenRack 및 PyTorch를 기반으로 이런 클러스터를 구축하고 업계 전반에 걸쳐 개방형 혁신을 지속적으로 추진
  • 이번 발표는 야심찬 인프라 로드맵의 한 단계
    • 2024년 말까지 거의 600,000개의 H100에 해당하는 컴퓨팅 성능을 갖춘 포트폴리오의 일부로 350,000개의 NVIDIA H100 GPU를 포함하는 인프라 구축을 계속해서 확장하는 것을 목표로 함

메타의 대규모 AI 클러스터에 대한 통찰

  • 메타의 장기적인 비전은 모든 사람이 혜택을 받을 수 있도록 개방적이고 책임감 있게 구축된 인공 일반 지능(AGI)을 만드는 것임
  • AGI를 향한 진전은 새로운 제품, 앱의 새로운 AI 기능, 그리고 새로운 AI 중심 컴퓨팅 장치를 만들어냄
  • 메타는 AI 인프라 구축의 오랜 역사를 가지고 있으며, 2022년에 16,000개의 NVIDIA A100 GPU를 특징으로 하는 AI 연구용 슈퍼클러스터(RSC)에 대한 세부 정보를 처음 공유했음

내부 구조

  • 새로운 AI 클러스터는 RSC에서 얻은 성공과 교훈을 바탕으로 구축됨
  • 연구자와 개발자의 경험과 생산성에 중점을 두고, 고성능 네트워크 패브릭의 효율성과 주요 스토리지 결정을 통해 더 크고 복잡한 모델을 지원함

네트워크

  • 메타는 하루에 수십조 번의 AI 모델 실행을 처리함
  • 대규모 서비스를 제공하기 위해 고도로 발전된 유연한 인프라가 필요함
  • 메타는 자체 하드웨어, 소프트웨어 및 네트워크 패브릭을 맞춤 설계하여 AI 연구자들의 경험을 최적화하고 데이터 센터의 효율적인 운영을 보장함

컴퓨팅

  • 두 클러스터는 메타가 내부적으로 설계한 오픈 GPU 하드웨어 플랫폼인 Grand Teton을 사용하여 구축됨
  • Grand Teton은 전력, 제어, 컴퓨트 및 패브릭 인터페이스를 하나의 섀시에 통합하여 전반적인 성능, 신호 무결성 및 열 성능을 향상시킴

스토리지

  • AI 트레이닝에 있어 스토리지는 중요한 역할을 하지만 가장 적게 언급되는 측면 중 하나임
  • 메타의 'Tectonic' 분산 스토리지 솔루션의 버전을 플래시 미디어에 최적화
    • 자체 개발한 FUSE(Linux Filesystem in Userspace) API를 통해 AI 클러스터의 데이터 및 체크포인팅 요구 사항을 해결함
    • 수천 개의 GPU가 동기화된 방식으로 체크포인트를 저장하고 로드할 수 있으며 데이터 로딩에 필요한 유연하고 처리량이 높은 엑사바이트 규모의 스토리지를 제공
  • Hammerspace 와 협력하여 병렬 네트워크 파일 시스템(NFS) 배포를 공동 개발

성능

  • 대규모 AI 클러스터를 구축할 때 성능과 사용 편의성을 동시에 극대화하는 것이 중요한 원칙임
  • AI 시스템의 한계를 뛰어넘으면서 설계 확장 능력을 테스트할 수 있는 가장 좋은 방법은 단순히 시스템을 구축하고, 최적화하고, 실제로 테스트하는 것
  • 메타는 시스템을 구축하고 최적화하며 실제로 테스트하여 설계의 확장 가능성을 테스트함
  • AI 워크로드를 지원하는 기본 AI 프레임워크인 PyTorch를 계속 발전시켜 수십, 심지어는 수십만 건의 GPU 교육에 대비할 수 있도록 하고 있음

개방형 AI 혁신에 대한 헌신

  • 메타는 AI 소프트웨어와 하드웨어에서의 오픈 혁신에 대한 헌신을 유지함
  • OCP의 창립 멤버로서 개방형 하드웨어 혁신을 계속 지원하고 있으며 OCP 커뮤니티에 Grand Teton 및 Open Rack과 같은 디자인을 제공
  • 또한 업계의 많은 부분을 지원하는 AI 소프트웨어 프레임워크인 PyTorch 의 최대이자 주요 기여자
  • 오픈 소스 하드웨어와 소프트웨어는 대규모 문제를 해결하는 데 도움이 되는 중요한 도구로 여겨짐

메타의 AI 인프라의 미래

  • 이 두 AI 트레이닝 클러스터 디자인은 AI의 미래를 위한 더 큰 로드맵의 일부임
  • 메타는 2024년 말까지 600,000개의 H100에 해당하는 컴퓨팅 성능을 갖춘 포트폴리오의 일부로 350,000개의 NVIDIA H100을 포함하는 인프라를 계속해서 확장할 계획

GN⁺의 의견

  • 메타가 발표한 24k GPU 클러스터는 AI 연구와 개발에 있어 중요한 발전을 의미하며, 특히 대규모 AI 모델 트레이닝에 필요한 강력한 컴퓨팅 리소스를 제공함
  • 이러한 인프라는 AI 모델의 복잡성과 크기가 계속해서 증가함에 따라 연구자들이 더욱 혁신적인 AI 솔루션을 개발할 수 있는 기반을 마련함
  • 메타의 오픈 소스 및 오픈 컴퓨트에 대한 헌신은 산업 전반에 걸쳐 혁신을 촉진하고, 다른 조직들이 이러한 기술을 활용하여 자체 AI 솔루션을 개발하는 데 도움이 될 수 있음
  • 그러나 이러한 대규모 클러스터는 막대한 에너지 소비와 관련된 환경적 영향을 고려해야 하며, 이는 지속 가능성에 대한 중요한 고려 사항이 될 수 있음
  • 메타의 이러한 발표는 AI 기술의 미래에 대한 흥미로운 통찰을 제공하며, AI의 발전이 사회와 산업에 미칠 영향에 대해 더 깊이 생각해 볼 기회를 제공함
Hacker News 의견
  • float8 언급 및 FLOPs 증가

    • float8이 언급되었으며, 이로 인해 FLOPs가 2배 증가함.
    • xformers는 이제 2:4 희소성을 지원하여 FLOPs가 추가로 2배 증가할 수 있음.
    • Llama3는 MLP에 float8과 2:4 희소성을 사용하여 H100 float16 FLOPs의 4배를 사용할 수도 있음.
    • PyTorch는 fp8을 실험적으로 지원하고 있으나, 정밀도 문제로 인해 float8에서 attention을 수행하기는 여전히 복잡함.
    • 아마도 attention은 float16으로, RoPE/layernorms는 float16/float32로, 그 외 모든 것은 float8로 처리될 수 있음.
  • 닷컴 시대와 AI 시대의 비교

    • 닷컴 시대를 경험한 한 사람은 AI 시대가 모델 훈련에 드는 막대한 자본 비용 때문에 다소 낙담함을 느낌.
    • 닷컴 시대 초반에는 상대적으로 적은 인프라 비용으로 누구나 전자상거래 사이트를 시작할 수 있었음.
    • 현재는 메타, 구글, 마이크로소프트, 오픈AI 등 대규모 기업만이 AI 모델을 구축할 수 있는 것처럼 보임.
  • 컴퓨팅 파워와 엔지니어링 시간의 관계

    • 페이스북이 컴퓨팅 파워를 10배 늘릴 수 있다면, 전체 스택을 재설계해야 할지, 100배는 어떨지에 대한 관심.
    • 각 재설계가 단순한 변경인지, 아니면 훨씬 더 복잡한 작업인지에 대한 의문.
    • 클러스터 내부에 대한 기술적 이해가 표면적인 수준이라, 관련 경험이 있는 사람의 의견에 대한 호기심.
  • 파이프라인 최적화 작업에 대한 관심

    • 파이프라인 최적화 작업에 참여하고 싶어하는 사람이 어떻게 시작해야 하는지에 대한 질문.
    • 머신러닝 과학자가 C/C++ 및 인프라 지식을 가지고 필요할 때 시스템으로 '내려가는' 것인지, 아니면 CUDA/SIMD 전문가가 '올라와서' 머신러닝 작업을 하는 것인지에 대한 궁금증.
  • 메타의 엔지니어링 능력

    • 메타는 부정적인 압력에도 불구하고 엔지니어링 분야에서 강력한 성과를 보임.
    • 메타가 이러한 엔지니어링 능력을 어떻게 수익화할 계획인지에 대한 의문.
  • 엔지니어링 및 인프라에 대한 역사적 관점

    • DLRM 논문과 페이스북의 초기 디스어그리게이티드 랙과 SDN에 대한 언급.
    • 2018년에 이미 SSD와 DRAM을 랙의 다른 곳에 배치하면서 큰 신경망을 사용하여 추천 시스템과 순위 매기기를 수행함.
    • 클릭 예측 모델에 대한 언급과 인텔 AVX-2를 사용한 HOGWILD 훈련 방법에 대한 놀라움.
    • 메타가 인프라 설계와 SKU 설계에 있어서 여전히 최고의 역량을 가지고 있음을 강조.
  • 메타의 AI 워크로드 경쟁 가능성

    • 메타가 AWS, MSFT, GOOG와 AI 워크로드 분야에서 경쟁할 가능성에 대한 궁금증.
  • H100 GPU의 비용

    • 메타가 H100 GPU에 지불하는 금액에 대한 추정.
    • 350,000개의 NVIDIA H100을 $10k에 구매한다면 총 비용은 $3.5b가 될 것임.
  • 메타의 AI 혁신에 대한 개방적인 태도

    • 메타가 AI 혁신에 대한 개방적인 태도를 보이고 있음을 인식함.
  • 메타의 장기적인 비전과 AGI

    • 메타의 장기적인 비전은 인공 일반 지능(AGI)을 구축하는 것임.