Anthropic CEO 다리오 아모데이: DeepSeek 모델은 그리 놀랍지 않다
(darioamodei.com)다리오 아모데이는 DeepSeek의 V3와 R1 모델 인식이 과장되었다고 주장
AI 발전의 세 동력 (Three Dynamics of AI Development)
-
Scaling laws: 다른 요소들이 동일한 경우, AI 시스템 성능은 스케일이 커질수록 증가함. 예를 들어 백만 달러 모델은 코딩 테스크의 20%를, 천만 달러 모델은 40%를, 1억 달러 모델은 60%를 맞춤
-
Shifting the curve: 모델 아키텍처나 연산 효율성 증가로 비용-성능 곡선이 이동함. 비용 효율이 작은 혁신으로는 1.2배 정도, 중간 크기 혁신은 2배, 큰 혁신은 10배 정도 증가. 그러나 비용 효율이 증가해도 회사들은 훈련 비용을 줄이지 않고 더 높은 성능의 모델을 만드는 데에 다시 투자함. 이런 혁신이 모여 1년에 4배 정도씩 증가하고 있음.
-
Shifting the paradigm: 2023년까지는 막대한 인터넷 자료로 학습시킨 pretrained model이 스케일링의 주요 대상이었음. 그러나 2024년부터 o1을 시작으로 강화학습이 이용되기 시작. 이 방법은 일반적인 pretrained model로 시작한 뒤 강화학습 단계를 더하는 방식임. 2024년부터는 강화학습 단계 스케일링이 시작되고 있으나, 아직 초기 단계이기에 약간의 투자만으로 큰 성능향상을 가져올 수 있음.
DeepSeek 모델
DeepSeek은 한 달 전 pretrained model DeepSeek-V3를 공개했고 지난주 강화학습 단계를 추가한 R1을 공개함. DeepSeek-V3는 SOTA 성능에 근접했으며 모델 효율을 크게 향상시킴.
- 그러나 DeepSeek이 6백만 달러로 미국 회사들의 수십억 달러 모델들과 동등한 성능을 보여준다는 소문은 과장됨. Claude Sonnet 3.5는 훈련에 수천만 달러가 소모되었으며 1년 전에 훈련되었음.
- 훈련 효율이 1년에 4배 정도 증가하고, V3의 성능이 SOTA에 미치지 못하는 점을 고려(곡선에서 비용 2배 정도의 차이)했을 때, V3 모델이 8배 정도 저렴한 비용으로 훈련된 것은 지금의 발전 추세를 벗어나지 않은 일임. 미국 회사들도 곧 각자의 방법으로 이정도 효율을 달성할 것임.
- 문제는 이 추세를 따르는 모델이 중국에서 등장했다는 것.
- DeepSeek은 50,000개의 Hopper 세대 칩을 보유하고 있음. 미국 회사들의 1/2~1/3 수준으로 이를 고려하면 미국 회사들과의 비용 차이는 그리 크지 않음.
- 엔지니어링 측면에서 R1은 V3보다 덜 흥미로움. 현재 우리가 강화학습 곡선의 초기 단계에 있기에 R1이 저렴한 비용으로 o1 급 성능을 보여줄 수 있었음. 강화학습의 스케일링이 진행되다 보면 이런 사례는 줄어들 것임.
수출 규제
- 미국과 중국의 연구소들은 강력한 AI 개발을 위해 막대한 돈을 투자하고 있으며, 이는 거의 모든 분야에서 거의 모든 인간보다 뛰어난 AI 모델을 만들 때까지 이어질 것. 2026-2027쯤으로 추정됨.
- 이때에는 수출 규제에 따라 세계가 완전히 다르게 나뉠 수 있음.
- 중국이 수백만 개의 칩을 확보한다면 미국과 중국이 각자 강력한 AI 모델을 가지고 기술을 혁신하는 양극 세계가 될 것임.
- 중국이 수백만 개의 칩을 확보하지 못한다면 미국과 동맹국들만이 강력한 모델을 가지고 단극 세계가 될 것임. AI가 AI 발전도 가속하기에, 이런 경향이 한동안 유지될 것.
- DeepSeek의 성과가 수출규제의 실패를 의미하진 않음. 그들은 이미 수출규제 이전에 충분한 칩을 확보해 뒀음.
추가로 아모데이는 3.5 Sonnet이 비공개 상위 모델(3.5 Opus 등)의 증류 버전이라는 소문도 부정했습니다.