# Meta의 오픈 AI 하드웨어 비젼

> Clean Markdown view of GeekNews topic #17295. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17295](https://news.hada.io/topic?id=17295)
- GeekNews Markdown: [https://news.hada.io/topic/17295.md](https://news.hada.io/topic/17295.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-18T08:56:22+09:00
- Updated: 2024-10-18T08:56:22+09:00
- Original source: [engineering.fb.com](https://engineering.fb.com/2024/10/15/data-infrastructure/metas-open-ai-hardware-vision/)
- Points: 6
- Comments: 1

## Summary

메타는 OCP 글로벌 서밋 2024에서 최신 AI 하드웨어 디자인을 공개하며, 협업을 통해 혁신을 촉진하고자 합니다. AI 인프라의 발전을 위해 오픈 하드웨어 솔루션과 개방형 네트워크 기술을 강조하며, 이를 통해 AI의 잠재력을 최대한 발휘하고 지속적인 혁신을 추진할 수 있습니다.

## Topic Body

### 메타, Open Compute Project (OCP) Global Summit 2024에서 최신 AI 하드웨어 디자인을 공개  
- 새로운 AI 플랫폼, 최첨단 오픈 랙 디자인, 고급 네트워크 패브릭 및 구성 요소 등의 혁신 기술 쇼케이스 진행  
- 디자인을 공유함으로써 협업을 장려하고 혁신을 촉진하고자 함  
  
### 메타의 AI 모델링 혁신과 인프라 발전  
- 메타는 수년 동안 AI 모델링 혁신을 통해 피드 및 광고 시스템 등의 기능을 최적화하고 개선해 왔음  
- 새롭고 진보된 AI 모델을 개발하고 출시함에 따라 새로운 AI 워크로드를 지원하기 위한 인프라 발전에도 주력하고 있음  
- 예를 들어, Llama 3.1 405B 모델을 훈련시키기 위해 전체 훈련 스택에 상당한 최적화를 수행했으며, 16,000개 이상의 NVIDIA H100 GPU에서 운영할 수 있게 됨  
- 2023년 동안 훈련 클러스터를 1K에서 16K GPU로 빠르게 확장했으며, 현재는 24K-GPU 클러스터에서 모델을 훈련시키고 있음  
- AI 훈련에 필요한 컴퓨팅 양이 앞으로도 크게 증가할 것으로 예상됨  
  
### AI 클러스터 구축을 위한 네트워킹과 대역폭의 중요성  
- GPU 외에도 네트워킹과 대역폭이 클러스터 성능 보장에 중요한 역할을 함   
- 메타의 시스템은 HPC 컴퓨팅 시스템과 GPU 및 도메인 특화 가속기를 연결하는 고대역폭 컴퓨팅 네트워크로 구성됨  
- 앞으로 가속기당 초당 테라바이트 수준의 인젝션 대역폭 증가가 예상되며, 이는 오늘날 네트워크 대비 10배 이상 성장한 수치임   
- 이를 지원하기 위해 고성능, 다계층, 비차단 네트워크 패브릭이 필요하며, 이를 통해 AI 클러스터의 잠재력을 최대한 활용할 수 있음  
  
### 오픈 하드웨어를 통한 AI 확장성 확보  
- AI를 이 속도로 확장하려면 오픈 하드웨어 솔루션이 필요함  
- 개방성의 원칙에 기반한 새로운 아키텍처, 네트워크 패브릭 및 시스템 설계 개발이 가장 효율적이고 영향력 있음   
- 오픈 하드웨어에 투자함으로써 AI의 잠재력을 최대한 발휘하고 AI 분야의 지속적인 혁신을 추진할 수 있음  
  
### AI 인프라를 위한 오픈 아키텍처 "Catalina" 소개  
- 메타는 AI 워크로드용 고성능 랙인 Catalina의 출시 예정을 OCP 커뮤니티에 발표함  
- Catalina는 NVIDIA Blackwell 플랫폼 전체 랙 규모 솔루션을 기반으로 하며, 모듈성과 유연성에 중점을 둠   
- 최신 NVIDIA GB200 Grace Blackwell 슈퍼칩을 지원하도록 설계되어 현대 AI 인프라의 성장하는 요구 사항을 충족시킴  
- GPU의 전력 요구 사항 증가로 인해 오픈 랙 솔루션은 더 높은 전력 기능을 지원해야 함  
- Catalina에서는 최대 140kW를 지원할 수 있는 Orv3 고출력 랙(HPR)을 도입함  
- 솔루션은 완전히 액체 냉각되며 다양한 구성 요소들로 이루어짐  
- Catalina의 모듈식 설계는 특정 AI 워크로드에 맞게 랙을 사용자 정의할 수 있게 해줌  
  
### Grand Teton 플랫폼의 AMD 가속기 지원  
- Grand Teton은 메타의 차세대 AI 플랫폼으로, 메모리 대역폭 바인딩 워크로드와 컴퓨팅 바인딩 워크로드의 요구 사항을 모두 지원하도록 설계됨   
- 이제 Grand Teton 플랫폼이 AMD Instinct MI300X를 지원하도록 확장되었으며, 이 새로운 버전을 OCP에 기부할 예정임  
- Grand Teton은 이전 버전과 마찬가지로 단일 모놀리식 시스템 설계를 특징으로 하며, 전원, 제어, 컴퓨팅 및 패브릭 인터페이스가 완전히 통합되어 있음  
- AMD Instinct MI300x를 비롯한 다양한 가속기 설계를 지원할 뿐만 아니라 더 큰 컴퓨팅 용량, 확장된 메모리, 증가된 네트워크 대역폭을 제공함  
  
### 오픈 분리형 예약 패브릭(DSF, Disaggregated Scheduled Fabric)  
- AI 훈련 클러스터의 성능을 계속 향상시키기 위해서는 개방형 벤더 중립 네트워킹 백엔드 개발이 중요한 역할을 할 것임   
- 네트워크를 분리하면 업계 전반의 공급업체와 협력하여 혁신적이고 확장 가능하며 유연하고 효율적인 시스템을 설계할 수 있음  
- 메타의 차세대 AI 클러스터용 새로운 DSF는 기존 스위치에 비해 여러 가지 장점을 제공함  
- DSF는 개방형 OCP-SAI 표준과 메타 자체 네트워크 운영 체제인 FBOSS에 의해 구동됨  
- NVIDIA, Broadcom, AMD 등 여러 공급업체의 여러 GPU 및 NIC에 걸쳐 엔드포인트 및 가속기에 대한 개방형 및 표준 이더넷 기반 RoCE 인터페이스를 지원함  
- DSF 외에도 Broadcom 및 Cisco ASIC을 기반으로 하는 새로운 51T 패브릭 스위치를 개발 및 구축했으며, 메타 최초의 자체 설계 네트워크 ASIC이 포함된 FBNIC라는 새로운 NIC 모듈을 공유하고 있음  
  
### 메타와 마이크로소프트의 개방형 혁신 추진 협력  
- 메타와 마이크로소프트는 OCP 내에서 오랜 파트너십을 맺고 있으며, 2018년 데이터 센터용 스위치 추상화 인터페이스(SAI) 개발에서 시작됨  
- 오픈 가속기 모듈(OAM) 표준 및 SSD 표준화 등 주요 이니셔티브에 기여해 왔음   
- 현재 두 회사의 협력은 새로운 분리형 전원 랙인 Mount Diablo에 초점을 맞추고 있음  
- Mount Diablo는 효율성과 확장성을 높이는 확장 가능한 400VDC 장치를 특징으로 하는 최첨단 솔루션으로, AI 인프라를 크게 발전시킴  
  
### AI 인프라의 개방형 미래  
- 메타는 오픈 소스 AI에 전념하고 있으며, 오픈 소스가 전 세계 사람들의 손에 AI의 혜택과 기회를 제공할 것이라고 믿음  
- 협업 없이는 AI가 그 잠재력을 실현할 수 없을 것임  
- 모델 혁신을 주도하고 이식성을 보장하며 AI 개발의 투명성을 증진하기 위해 오픈 소프트웨어 프레임워크가 필요함   
- 집단 전문 지식을 활용하고 AI를 더 접근하기 쉽게 만들며 시스템의 편향을 최소화하기 위해 개방형 및 표준화된 모델에 우선순위를 두어야 함  
- AI 발전에 필요한 고성능, 비용 효율적이고 적응성 있는 인프라를 제공하기 위해서는 개방형 AI 하드웨어 시스템도 필요함  
- AI 하드웨어 시스템의 미래 발전에 기여하고자 하는 사람은 누구나 OCP 커뮤니티에 참여할 것을 권장함  
- AI의 인프라 요구 사항을 함께 해결함으로써 모든 사람을 위한 개방형 AI의 진정한 약속을 실현할 수 있음  
  
### GN⁺의 의견  
- 여러 GPU와 NIC 공급업체를 아우르는 개방형 네트워크 기술을 통해 벤더 종속성을 극복하고 AI 훈련 클러스터의 확장성과 유연성을 높일 수 있음   
- 메타와 마이크로소프트의 협력은 개방형 AI 인프라 혁신을 가속화하는 데 주요한 역할을 할 수 있음. 양사가 OCP를 통해 오랫동안 쌓아온 파트너십을 바탕으로 새로운 표준과 솔루션 개발에 박차를 가할 것으로 기대됨  
- 오픈 소스 AI에 대한 메타의 강력한 지지는 고무적임. 오픈 소스야말로 AI의 잠재력을 민주화하고 사회 전반에 걸쳐 AI의 기회를 확대하는 길임  
- 개방형 AI 인프라를 구축하는 과정에서 투명성과 설명 가능성, 윤리적 고려 사항 등도 함께 다뤄져야 할 것임. 기술 발전 못지않게 AI에 대한 사회적 신뢰 구축이 중요함  
- AI 하드웨어와 소프트웨어 생태계가 함께 성장해 나가기 위해서는 산업계 전반의 협력과 더불어 학계, 정책 입안자 등 다양한 이해관계자의 참여가 필수적임. OCP가 이를 위한 핵심 플랫폼이 되기를 기대함

## Comments



### Comment 30161

- Author: neo
- Created: 2024-10-18T08:56:22+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41851304) 
- OpenAI와 Meta AI의 경쟁을 macOS vs Windows, iOS vs Android와 같은 플랫폼 경쟁으로 보는 의견이 있음
  - Meta가 시장 점유율을 확보하기 위해 플랫폼을 개방하는 경향이 있다고 관찰함
  - Meta가 승리할 경우 플랫폼을 계속 개방할지 의문을 제기함

- Zuckerberg와 Facebook은 많은 비판을 받지만, 엔지니어링과 오픈 소스에 많은 투자를 하고 있음

- Meta가 Llama 3.1 405B 모델을 훈련하기 위해 16,000개 이상의 NVIDIA H100 GPU를 사용했으며, 이는 대규모 투자를 의미함
  - Meta의 주가가 오픈 소스 모델 출시 이후 크게 상승했음을 언급함

- Meta의 오픈 소스 LLM이 많은 사용자에게 매력적일 것이라는 의견이 있음
  - OpenAI와 Anthropic이 개방형 모델에 대해 논의할 가능성이 있음

- Meta, Microsoft, OpenAI가 NVIDIA와 경쟁하기 위해 오픈 칩 설계에 협력할 가능성을 궁금해함

- Meta가 핵융합 발전소와 같은 에너지 생산 사이트 옆에 AI 데이터 센터를 구축할 가능성을 언급함
  - Yann LeCun의 의견을 인용하여 지속 가능한 저비용 전기를 사용하는 것이 장점임을 설명함

- Meta가 OpenAI에 이어 NVIDIA를 겨냥하고 있는지 의문을 제기함

- "Open"이라는 개념이 이제는 밈이 되었다고 언급함
