마크 주커버그 인터뷰 - Llama 3, 100억달러 모델을 오픈소싱한 이유

(dwarkeshpatel.com)

30P by xguru 2024-04-21 | ★ favorite | 댓글 4개

Dwarkesh Patel과 인터뷰에서 Llama3, AGI를 향한 오픈소싱, 커스텀 실리콘, 스케일링에 대한 에너지 제약등을 이야기해서 전체 스크립트를 간단히 요약

Llama 3

Meta는 오픈 소스 모델인 Llama 3를 출시하여 새로운 버전의 Meta AI를 구동할 예정
Meta AI는 가장 지능적이고 자유롭게 사용 가능한 AI 어시스턴트를 목표로 함
Llama 3는 현재 출시된 8B, 70B와 아직 학습 중인 405B 크기의 Dense 모델로 제공
멀티모달, 멀티언어, 더 큰 컨텍스트 창을 갖춘 새로운 릴리스의 로드맵을 가지고 있으며, 올해내로 405B를 롤아웃할 예정
405B는 현재 훈련중인 상태로 85 MMLU에 도달했으며, 여러 벤치마크에서 선두를 차지할 것으로 예상
8B Llama 3 모델은 최대 크기의 Llama 2 모델과 거의 동등한 성능을 가짐
70B도 훌륭해서 이미 82 MMLU임

GPU

Meta는 주가가 폭락하던 2022년에 Reels를 구축하기 위해 H100 GPU를 확보했음
TikTok이 하고 있는 일을 원하는 만큼 빨리 따라잡는 데 인프라가 제한적이었고, 다시는 이런 상황에 빠지지 않도록 두배로 주문함
향후 대규모 모델 학습에 필요할 것으로 예상하긴 했는데, 그 당시에는 단지 콘텐츠 추천을 위한 것이라고 생각했음
돌이켜보면 아주 잘한 결정이었고, 그것은 뒤처져 있었기 때문에 가능했음
"아, 내가 너무 앞서 나갔구나." 같은 게 아니었음
사실, 우리가 어떤 결정을 내렸을 때 좋은 결정으로 끝나는 경우는 대부분 이전에 무언가를 망쳐서 그 실수를 반복하고 싶지 않았기 때문

AGI(Artificial General Intelligence)를 향한 코딩 및 추론 능력의 중요성

Meta는 모델이 실제 사용 사례를 해결하기 위해서는 직접적으로 코딩 질문을 받지 않더라도 코딩 및 추론 능력이 중요하다는 것을 인식함
최종 목표는 AGI를 해결하고 모델이 다단계의 복잡한 작업을 수행할 수 있도록 하는 것임
AGI는 멀티모달, 감정 이해, 메모리 등 다양한 기능을 점진적으로 추가함으로써 달성될 것임

에너지 및 확장성 병목 현상

모델 크기의 지수적인 진보는 계속될 수 있지만 결국 에너지 및 인프라 병목에 부딪힐 것
현재 많은 데이터 센터는 50메가와트 또는 100MW 정도이며, 큰 데이터 센터는 150MW
그러나 300MW, 500MW 또는 1GW 규모의 데이터 센터를 구축하기 시작하게 될것(1GW 규모는 아직 없지만 곧)
하지만 1GW라면 모델 훈련에만 원자력 발전소 규모가 필요해지는데, 이런 기가와트 규모 클러스터 구축은 엄격한 허가 절차로 인해 수년이 걸리게 될 것

AI 혁명의 중요성

AI는 컴퓨팅 자체의 창조만큼 근본적이며, 우리가 일하는 방식을 변화시키고 새로운 창의적 도구를 제공할 것임
우주적 시간 척도에서는 진보가 빠를 것이지만 병목 현상으로 인해 하루 아침에 지능 폭발은 일어나지 않을 것임
지능이 의식과 주체성에서 분리될 수 있는 방향으로 가는 것처럼 느껴지는데, 이는 매우 가치 있는 도구가 될 수 있을것이라고 생감함

오픈 소싱과 권력 균형

강력한 AI가 소수의 손에 집중되는 것은 널리 사용 가능한 것만큼 위험할 수 있음
우리는 분명 오픈소스를 적극 지지하지만, 우리가 하는 모든 일을 공개하지는 않았음
오픈 소싱을 통해 커뮤니티가 모델을 강화하고 보다 균형 잡힌 경쟁의 장을 보장할 수 있음
하지만 어느 순간에 그 기능에 질적인 변화가 생겨서 오픈소싱을 하는 것이 적절하지 않다고 판단되면 오픈소싱을 하지 않을 것. 모든 것은 예측하기 매우 어려움
Meta는 책임감 있고 도움이 되는 한 오픈 소스를 지향하며, 클라우드 공급자에게 모델 사용 비용을 청구할 수 있음
단기적으로는 모델 오용으로 인한 실제 피해 완화에 중점을 두고, 장기적으로는 실존적 위험에 중점을 둠

100억달러 모델을 오픈소싱한 이유

모바일 생태계가 짜증나는 것은 애플과 구글이라는 두개의 게이트키퍼 회사가 있다는 것
이 두 회사는 당신이 뭘 구축할 수 있는지를 알려줌
또한 우리가 무언가를 만들면 그들이 돈을 가져가는 경제적인 부분도 있지만, 질적인 부분이 더 화가남
우리가 기능을 출시했거나 출시하고 싶었는데 Apple이 "안돼요, 그건 출시 불가능합니다"라고 말할 때가 많았음
정말 짜증나는데, AI에서도 그런 세상을 맞이하고 싶은가 하는 것
폐쇄형 모델을 운영하는 소수의 회사가 API를 제어하여 여러분이 무엇을 만들 수 있는지 알려줄 수 있을까?
우리가 그런 입장에 처하지 않기 위해 직접 모델을 구축하는 것은 가치가 있다고 말할 수 있음
다른 어떤 회사도 우리가 무엇을 만들 수 있는지 알려주는 것을 원하지 않음
오픈소스의 관점에서 보면 많은 개발자들도 이러한 회사가 무엇을 만들 수 있는지 알려주는 것을 원하지 않는다고 생각함
그렇다면 문제는 이를 중심으로 구축되는 생태계가 무엇인가 하는 것
- 흥미로운 새로운 것은 무엇인가?
- 그것이 우리 제품을 얼마나 향상시킬 수 있을까?
데이터베이스나 캐싱 시스템 또는 아키텍처처럼 커뮤니티로부터 더 나은 제품을 만드는 데 도움이 되는 귀중한 기여를 얻을 수 있는 경우가 많다고 생각
그러면 우리가 하는 앱별 작업은 여전히 차별화되어 크게 중요하지 않게 될 것
우리는 우리가 하는 일을 할 수 있을 것
오픈소스이기 때문에 우리와 커뮤니티의 모든 시스템이 더 좋아질 것
하지만 그렇지 않은 세상도 있음
어쩌면 모델이 제품 자체에 더 가까워질 수도 있음
경제적인 계산이 더 까다로워질 것 같음. 오픈소스를 하든 안 하든 자신을 많이 상품화하게 되니까
하지만 지금까지 볼 때 우리는 그 영역에 있는 것 같지 않음

모델의 수익화

클라우드 제공업체에 모델 라이선스를 부여하면 상당한 수익을 얻을 수 있을 것으로 예상하는가?
Llama 여러 면에서 이는 매우 허용적인 오픈 소스 라이선스
단, 이를 사용하는 대규모 회사에는 제한이 있음. 이것이 우리가 그 제한을 두는 이유
우리는 그들이 그것을 사용하는 것을 막으려고 노력하지 않으며, 그들이 기본적으로 우리가 만든 것을 가져다가 재판매하여 돈을 벌려는 경우 우리에게 와서 이야기하기를 원함
Microsoft Azure 또는 Amazon 과 같은 경우 모델을 재판매하려면 그에 대한 수익 공유가 있어야 함
그러니 그렇게 하기 전에 우리에게 와서 얘기하라는 것, 그게 진행되는 방식임
따라서 Llama-2의 경우 기본적으로 모든 주요 클라우드 회사와 계약을 맺었으며 Llama-2는 모든 클라우드에서 호스팅 서비스로 제공됨
우리가 점점 더 큰 모델을 출시할수록 더 큰 일이 될 것이라고 생각함
이것이 우리가 하고 있는 주요 일은 아니지만, 만약 그 회사들이 우리 모델을 판매한다면 우리가 그 장점을 어떻게든 공유해야 한다는 것이 합리적이라고 생각