# 마크 주커버그 인터뷰 - Llama 3, 100억달러 모델을 오픈소싱한 이유

> Clean Markdown view of GeekNews topic #14427. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14427](https://news.hada.io/topic?id=14427)
- GeekNews Markdown: [https://news.hada.io/topic/14427.md](https://news.hada.io/topic/14427.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-04-21T13:19:58+09:00
- Updated: 2024-04-21T13:19:58+09:00
- Original source: [dwarkeshpatel.com](https://www.dwarkeshpatel.com/p/mark-zuckerberg)
- Points: 30
- Comments: 4

## Topic Body

- Dwarkesh Patel과 인터뷰에서 Llama3, AGI를 향한 오픈소싱, 커스텀 실리콘, 스케일링에 대한 에너지 제약등을 이야기해서 전체 스크립트를 간단히 요약   
  
### Llama 3   
- Meta는 오픈 소스 모델인 Llama 3를 출시하여 새로운 버전의 Meta AI를 구동할 예정  
- Meta AI는 가장 지능적이고 자유롭게 사용 가능한 AI 어시스턴트를 목표로 함  
- Llama 3는 현재 출시된 8B, 70B와 아직 학습 중인 405B 크기의 Dense 모델로 제공  
- 멀티모달, 멀티언어, 더 큰 컨텍스트 창을 갖춘 새로운 릴리스의 로드맵을 가지고 있으며, 올해내로 405B를 롤아웃할 예정  
- 405B는 현재 훈련중인 상태로 85 MMLU에 도달했으며, 여러 벤치마크에서 선두를 차지할 것으로 예상   
- 8B Llama 3 모델은 최대 크기의 Llama 2 모델과 거의 동등한 성능을 가짐  
- 70B도 훌륭해서 이미 82 MMLU임   
  
### GPU   
  
- Meta는 주가가 폭락하던 2022년에 Reels를 구축하기 위해 H100 GPU를 확보했음   
- TikTok이 하고 있는 일을 원하는 만큼 빨리 따라잡는 데 인프라가 제한적이었고, 다시는 이런 상황에 빠지지 않도록 두배로 주문함   
- 향후 대규모 모델 학습에 필요할 것으로 예상하긴 했는데, 그 당시에는 단지 콘텐츠 추천을 위한 것이라고 생각했음  
- 돌이켜보면 아주 잘한 결정이었고, 그것은 뒤처져 있었기 때문에 가능했음   
- "아, 내가 너무 앞서 나갔구나." 같은 게 아니었음  
- 사실, 우리가 어떤 결정을 내렸을 때 좋은 결정으로 끝나는 경우는 대부분 이전에 무언가를 망쳐서 그 실수를 반복하고 싶지 않았기 때문  
  
### AGI(Artificial General Intelligence)를 향한 코딩 및 추론 능력의 중요성  
  
- Meta는 모델이 실제 사용 사례를 해결하기 위해서는 직접적으로 코딩 질문을 받지 않더라도 코딩 및 추론 능력이 중요하다는 것을 인식함  
- 최종 목표는 AGI를 해결하고 모델이 다단계의 복잡한 작업을 수행할 수 있도록 하는 것임  
- AGI는 멀티모달, 감정 이해, 메모리 등 다양한 기능을 점진적으로 추가함으로써 달성될 것임  
  
### 에너지 및 확장성 병목 현상  
  
- 모델 크기의 지수적인 진보는 계속될 수 있지만 결국 에너지 및 인프라 병목에 부딪힐 것  
- 현재 많은 데이터 센터는 50메가와트 또는 100MW 정도이며, 큰 데이터 센터는 150MW  
- 그러나 300MW, 500MW 또는 1GW 규모의 데이터 센터를 구축하기 시작하게 될것(1GW 규모는 아직 없지만 곧)  
- 하지만 1GW라면 모델 훈련에만 원자력 발전소 규모가 필요해지는데, 이런 기가와트 규모 클러스터 구축은 엄격한 허가 절차로 인해 수년이 걸리게 될 것  
  
### AI 혁명의 중요성  
  
- AI는 컴퓨팅 자체의 창조만큼 근본적이며, 우리가 일하는 방식을 변화시키고 새로운 창의적 도구를 제공할 것임  
- 우주적 시간 척도에서는 진보가 빠를 것이지만 병목 현상으로 인해 하루 아침에 지능 폭발은 일어나지 않을 것임  
- 지능이 의식과 주체성에서 분리될 수 있는 방향으로 가는 것처럼 느껴지는데, 이는 매우 가치 있는 도구가 될 수 있을것이라고 생감함   
  
### 오픈 소싱과 권력 균형  
  
- 강력한 AI가 소수의 손에 집중되는 것은 널리 사용 가능한 것만큼 위험할 수 있음  
- 우리는 분명 오픈소스를 적극 지지하지만, 우리가 하는 모든 일을 공개하지는 않았음   
- 오픈 소싱을 통해 커뮤니티가 모델을 강화하고 보다 균형 잡힌 경쟁의 장을 보장할 수 있음  
- 하지만 어느 순간에 그 기능에 질적인 변화가 생겨서 오픈소싱을 하는 것이 적절하지 않다고 판단되면 오픈소싱을 하지 않을 것. 모든 것은 예측하기 매우 어려움  
- Meta는 책임감 있고 도움이 되는 한 오픈 소스를 지향하며, 클라우드 공급자에게 모델 사용 비용을 청구할 수 있음  
- 단기적으로는 모델 오용으로 인한 실제 피해 완화에 중점을 두고, 장기적으로는 실존적 위험에 중점을 둠  
  
### 100억달러 모델을 오픈소싱한 이유   
- 모바일 생태계가 짜증나는 것은 애플과 구글이라는 두개의 게이트키퍼 회사가 있다는 것   
- 이 두 회사는 당신이 뭘 구축할 수 있는지를 알려줌   
- 또한 우리가 무언가를 만들면 그들이 돈을 가져가는 경제적인 부분도 있지만, 질적인 부분이 더 화가남   
- 우리가 기능을 출시했거나 출시하고 싶었는데 Apple이 "안돼요, 그건 출시 불가능합니다"라고 말할 때가 많았음  
- 정말 짜증나는데, AI에서도 그런 세상을 맞이하고 싶은가 하는 것   
- 폐쇄형 모델을 운영하는 소수의 회사가 API를 제어하여 여러분이 무엇을 만들 수 있는지 알려줄 수 있을까?  
- 우리가 그런 입장에 처하지 않기 위해 직접 모델을 구축하는 것은 가치가 있다고 말할 수 있음   
- 다른 어떤 회사도 우리가 무엇을 만들 수 있는지 알려주는 것을 원하지 않음   
- 오픈소스의 관점에서 보면 많은 개발자들도 이러한 회사가 무엇을 만들 수 있는지 알려주는 것을 원하지 않는다고 생각함   
- 그렇다면 문제는 이를 중심으로 구축되는 생태계가 무엇인가 하는 것  
  - 흥미로운 새로운 것은 무엇인가?  
  - 그것이 우리 제품을 얼마나 향상시킬 수 있을까?   
- 데이터베이스나 캐싱 시스템 또는 아키텍처처럼 커뮤니티로부터 더 나은 제품을 만드는 데 도움이 되는 귀중한 기여를 얻을 수 있는 경우가 많다고 생각  
- 그러면 우리가 하는 앱별 작업은 여전히 차별화되어 크게 중요하지 않게 될 것  
- 우리는 우리가 하는 일을 할 수 있을 것  
- 오픈소스이기 때문에 우리와 커뮤니티의 모든 시스템이 더 좋아질 것  
- 하지만 그렇지 않은 세상도 있음  
- 어쩌면 모델이 제품 자체에 더 가까워질 수도 있음   
- 경제적인 계산이 더 까다로워질 것 같음. 오픈소스를 하든 안 하든 자신을 많이 상품화하게 되니까  
- 하지만 지금까지 볼 때 우리는 그 영역에 있는 것 같지 않음   
  
### 모델의 수익화   
- 클라우드 제공업체에 모델 라이선스를 부여하면 상당한 수익을 얻을 수 있을 것으로 예상하는가?  
- Llama 여러 면에서 이는 매우 허용적인 오픈 소스 라이선스  
- 단, 이를 사용하는 대규모 회사에는 제한이 있음. 이것이 우리가 그 제한을 두는 이유  
- 우리는 그들이 그것을 사용하는 것을 막으려고 노력하지 않으며, 그들이 기본적으로 우리가 만든 것을 가져다가 재판매하여 돈을 벌려는 경우 우리에게 와서 이야기하기를 원함   
- Microsoft Azure 또는 Amazon 과 같은 경우 모델을 재판매하려면 그에 대한 수익 공유가 있어야 함   
- 그러니 그렇게 하기 전에 우리에게 와서 얘기하라는 것, 그게 진행되는 방식임  
- 따라서 Llama-2의 경우 기본적으로 모든 주요 클라우드 회사와 계약을 맺었으며 Llama-2는 모든 클라우드에서 호스팅 서비스로 제공됨   
- 우리가 점점 더 큰 모델을 출시할수록 더 큰 일이 될 것이라고 생각함   
- 이것이 우리가 하고 있는 주요 일은 아니지만, 만약 그 회사들이 우리 모델을 판매한다면 우리가 그 장점을 어떻게든 공유해야 한다는 것이 합리적이라고 생각  
  
### 맞춤형 실리콘   
- Meta는 대규모 모델을 효율적으로 실행하기 위해 맞춤형 실리콘 개발 중  
- Llama-4는 아니지만, 먼저 순위 및 추천 유형에 대한 추론을 처리할 수 있는 맞춤형 실리콘을 구축하여 릴, 뉴스피드 광고 등을 만들었음   
- 이를 자체 실리콘으로 옮길 수 있게 되면서 이제는 더 비싼 NVIDIA GPU를 트레이닝에만 사용할 수 있게 되었음   
- 언젠가는 실리콘을 직접 개발해 처음에는 간단한 훈련에 사용하고 나중에는 정말 큰 모델을 훈련하는 데 사용할 수 있기를 바람   
- 그 동안에는 프로그램이 꽤 잘 진행되고 있으며 체계적으로 배포하고 있고 장기적인 로드맵을 가지고 있다고 말할 수 있음

## Comments


### Comment 24600

- Author: laeyoung
- Created: 2024-04-22T13:20:56+09:00
- Points: 1

"1GW라면 모델 훈련에만 원자력 발전소 규모가 필요"  
  
이제 파운데이션 모델 학습하려면 핵개발(?)이 필요하군요.

### Comment 24597

- Author: tsboard
- Created: 2024-04-22T12:24:15+09:00
- Points: 1

여러 고민들이 많아 보이네요. 플랫폼을 쥐고 있는 구글이랑 애플에 대한 확고한 반감은 이해할만 합니다.

### Comment 24577

- Author: daejin
- Created: 2024-04-22T09:25:56+09:00
- Points: 1

"100억달러 모델을 오픈소싱한 이유" 항목은 요약된 글인데도 먼가 깨우치는 부분이 있네요.

### Comment 24568

- Author: realg
- Created: 2024-04-21T13:40:22+09:00
- Points: 1

좋은 컨텐츠 감사합니다