- Dwarkesh Patel과 인터뷰에서 Llama3, AGI를 향한 오픈소싱, 커스텀 실리콘, 스케일링에 대한 에너지 제약등을 이야기해서 전체 스크립트를 간단히 요약
Llama 3
- Meta는 오픈 소스 모델인 Llama 3를 출시하여 새로운 버전의 Meta AI를 구동할 예정
- Meta AI는 가장 지능적이고 자유롭게 사용 가능한 AI 어시스턴트를 목표로 함
- Llama 3는 현재 출시된 8B, 70B와 아직 학습 중인 405B 크기의 Dense 모델로 제공
- 멀티모달, 멀티언어, 더 큰 컨텍스트 창을 갖춘 새로운 릴리스의 로드맵을 가지고 있으며, 올해내로 405B를 롤아웃할 예정
- 405B는 현재 훈련중인 상태로 85 MMLU에 도달했으며, 여러 벤치마크에서 선두를 차지할 것으로 예상
- 8B Llama 3 모델은 최대 크기의 Llama 2 모델과 거의 동등한 성능을 가짐
- 70B도 훌륭해서 이미 82 MMLU임
GPU
- Meta는 주가가 폭락하던 2022년에 Reels를 구축하기 위해 H100 GPU를 확보했음
- TikTok이 하고 있는 일을 원하는 만큼 빨리 따라잡는 데 인프라가 제한적이었고, 다시는 이런 상황에 빠지지 않도록 두배로 주문함
- 향후 대규모 모델 학습에 필요할 것으로 예상하긴 했는데, 그 당시에는 단지 콘텐츠 추천을 위한 것이라고 생각했음
- 돌이켜보면 아주 잘한 결정이었고, 그것은 뒤처져 있었기 때문에 가능했음
- "아, 내가 너무 앞서 나갔구나." 같은 게 아니었음
- 사실, 우리가 어떤 결정을 내렸을 때 좋은 결정으로 끝나는 경우는 대부분 이전에 무언가를 망쳐서 그 실수를 반복하고 싶지 않았기 때문
AGI(Artificial General Intelligence)를 향한 코딩 및 추론 능력의 중요성
- Meta는 모델이 실제 사용 사례를 해결하기 위해서는 직접적으로 코딩 질문을 받지 않더라도 코딩 및 추론 능력이 중요하다는 것을 인식함
- 최종 목표는 AGI를 해결하고 모델이 다단계의 복잡한 작업을 수행할 수 있도록 하는 것임
- AGI는 멀티모달, 감정 이해, 메모리 등 다양한 기능을 점진적으로 추가함으로써 달성될 것임
에너지 및 확장성 병목 현상
- 모델 크기의 지수적인 진보는 계속될 수 있지만 결국 에너지 및 인프라 병목에 부딪힐 것
- 현재 많은 데이터 센터는 50메가와트 또는 100MW 정도이며, 큰 데이터 센터는 150MW
- 그러나 300MW, 500MW 또는 1GW 규모의 데이터 센터를 구축하기 시작하게 될것(1GW 규모는 아직 없지만 곧)
- 하지만 1GW라면 모델 훈련에만 원자력 발전소 규모가 필요해지는데, 이런 기가와트 규모 클러스터 구축은 엄격한 허가 절차로 인해 수년이 걸리게 될 것
AI 혁명의 중요성
- AI는 컴퓨팅 자체의 창조만큼 근본적이며, 우리가 일하는 방식을 변화시키고 새로운 창의적 도구를 제공할 것임
- 우주적 시간 척도에서는 진보가 빠를 것이지만 병목 현상으로 인해 하루 아침에 지능 폭발은 일어나지 않을 것임
- 지능이 의식과 주체성에서 분리될 수 있는 방향으로 가는 것처럼 느껴지는데, 이는 매우 가치 있는 도구가 될 수 있을것이라고 생감함
오픈 소싱과 권력 균형
- 강력한 AI가 소수의 손에 집중되는 것은 널리 사용 가능한 것만큼 위험할 수 있음
- 우리는 분명 오픈소스를 적극 지지하지만, 우리가 하는 모든 일을 공개하지는 않았음
- 오픈 소싱을 통해 커뮤니티가 모델을 강화하고 보다 균형 잡힌 경쟁의 장을 보장할 수 있음
- 하지만 어느 순간에 그 기능에 질적인 변화가 생겨서 오픈소싱을 하는 것이 적절하지 않다고 판단되면 오픈소싱을 하지 않을 것. 모든 것은 예측하기 매우 어려움
- Meta는 책임감 있고 도움이 되는 한 오픈 소스를 지향하며, 클라우드 공급자에게 모델 사용 비용을 청구할 수 있음
- 단기적으로는 모델 오용으로 인한 실제 피해 완화에 중점을 두고, 장기적으로는 실존적 위험에 중점을 둠
100억달러 모델을 오픈소싱한 이유
- 모바일 생태계가 짜증나는 것은 애플과 구글이라는 두개의 게이트키퍼 회사가 있다는 것
- 이 두 회사는 당신이 뭘 구축할 수 있는지를 알려줌
- 또한 우리가 무언가를 만들면 그들이 돈을 가져가는 경제적인 부분도 있지만, 질적인 부분이 더 화가남
- 우리가 기능을 출시했거나 출시하고 싶었는데 Apple이 "안돼요, 그건 출시 불가능합니다"라고 말할 때가 많았음
- 정말 짜증나는데, AI에서도 그런 세상을 맞이하고 싶은가 하는 것
- 폐쇄형 모델을 운영하는 소수의 회사가 API를 제어하여 여러분이 무엇을 만들 수 있는지 알려줄 수 있을까?
- 우리가 그런 입장에 처하지 않기 위해 직접 모델을 구축하는 것은 가치가 있다고 말할 수 있음
- 다른 어떤 회사도 우리가 무엇을 만들 수 있는지 알려주는 것을 원하지 않음
- 오픈소스의 관점에서 보면 많은 개발자들도 이러한 회사가 무엇을 만들 수 있는지 알려주는 것을 원하지 않는다고 생각함
- 그렇다면 문제는 이를 중심으로 구축되는 생태계가 무엇인가 하는 것
- 흥미로운 새로운 것은 무엇인가?
- 그것이 우리 제품을 얼마나 향상시킬 수 있을까?
- 데이터베이스나 캐싱 시스템 또는 아키텍처처럼 커뮤니티로부터 더 나은 제품을 만드는 데 도움이 되는 귀중한 기여를 얻을 수 있는 경우가 많다고 생각
- 그러면 우리가 하는 앱별 작업은 여전히 차별화되어 크게 중요하지 않게 될 것
- 우리는 우리가 하는 일을 할 수 있을 것
- 오픈소스이기 때문에 우리와 커뮤니티의 모든 시스템이 더 좋아질 것
- 하지만 그렇지 않은 세상도 있음
- 어쩌면 모델이 제품 자체에 더 가까워질 수도 있음
- 경제적인 계산이 더 까다로워질 것 같음. 오픈소스를 하든 안 하든 자신을 많이 상품화하게 되니까
- 하지만 지금까지 볼 때 우리는 그 영역에 있는 것 같지 않음
모델의 수익화
- 클라우드 제공업체에 모델 라이선스를 부여하면 상당한 수익을 얻을 수 있을 것으로 예상하는가?
- Llama 여러 면에서 이는 매우 허용적인 오픈 소스 라이선스
- 단, 이를 사용하는 대규모 회사에는 제한이 있음. 이것이 우리가 그 제한을 두는 이유
- 우리는 그들이 그것을 사용하는 것을 막으려고 노력하지 않으며, 그들이 기본적으로 우리가 만든 것을 가져다가 재판매하여 돈을 벌려는 경우 우리에게 와서 이야기하기를 원함
- Microsoft Azure 또는 Amazon 과 같은 경우 모델을 재판매하려면 그에 대한 수익 공유가 있어야 함
- 그러니 그렇게 하기 전에 우리에게 와서 얘기하라는 것, 그게 진행되는 방식임
- 따라서 Llama-2의 경우 기본적으로 모든 주요 클라우드 회사와 계약을 맺었으며 Llama-2는 모든 클라우드에서 호스팅 서비스로 제공됨
- 우리가 점점 더 큰 모델을 출시할수록 더 큰 일이 될 것이라고 생각함
- 이것이 우리가 하고 있는 주요 일은 아니지만, 만약 그 회사들이 우리 모델을 판매한다면 우리가 그 장점을 어떻게든 공유해야 한다는 것이 합리적이라고 생각
맞춤형 실리콘
- Meta는 대규모 모델을 효율적으로 실행하기 위해 맞춤형 실리콘 개발 중
- Llama-4는 아니지만, 먼저 순위 및 추천 유형에 대한 추론을 처리할 수 있는 맞춤형 실리콘을 구축하여 릴, 뉴스피드 광고 등을 만들었음
- 이를 자체 실리콘으로 옮길 수 있게 되면서 이제는 더 비싼 NVIDIA GPU를 트레이닝에만 사용할 수 있게 되었음
- 언젠가는 실리콘을 직접 개발해 처음에는 간단한 훈련에 사용하고 나중에는 정말 큰 모델을 훈련하는 데 사용할 수 있기를 바람
- 그 동안에는 프로그램이 꽤 잘 진행되고 있으며 체계적으로 배포하고 있고 장기적인 로드맵을 가지고 있다고 말할 수 있음