Grok 3: The Bitter Lesson의 또 다른 승리

(thealgorithmicbridge.com)

3P by GN⁺ 2025-02-21 | ★ favorite | 댓글 3개

I. AI 발전을 지배하는 스케일링 법칙

Elon Musk가 Grok 3을 "지구상에서 가장 똑똑한 AI"라고 부른 것이 과장이 아닐 가능성이 높음
Grok 2에 비해 비약적인 발전을 이루었으며, OpenAI, Google DeepMind, Anthropic과 같은 성숙한 연구소들의 모델과 동등하거나 일부 영역에서는 뛰어남
LMSys Arena에서 모든 카테고리에서 1위를 차지하며, 수학, 코딩, 과학 문제에서도 높은 수준(o3 수준)의 성과를 보임
일부 특정 작업에서는 최상위 모델들보다 부족하지만, 대부분의 기준에서 동급 최강(co-state-of-the-art) 수준임
Grok 3은 단순한 xAI의 성공을 넘어, AI 연구에서 규모의 중요성을 강조하는 The Bitter Lesson의 또 다른 승리를 의미
비판적인 시각이나 언론의 보도와 달리 AI 발전에 있어 스케일링 법칙(Scaling Laws) 은 여전히 유효하며, 그 중요성은 더욱 커지고 있음

II. DeepSeek: 법칙을 증명하는 예외

DeepSeek의 성공 배경
- DeepSeek은 상대적으로 적은 컴퓨팅 자원(약 50K Nvidia Hopper GPU)으로도 업계 최상위 경쟁자들과 맞설 수 있었음
- 미국 연구소들은 100K 이상의 Nvidia H100을 사용했으나, DeepSeek은 전체 기술 스택을 최적화하여 성과를 냄
- 이로 인해 DeepSeek은 커뮤니티가 믿어왔던 'Bitter Lesson' 및 'Scaling Paradigm'에 대한 의문을 불러일으켰음
잘못된 결론과 Bitter Lesson의 진짜 의미
- 일부 사람들은 DeepSeek의 성공을 "GPU가 중요하지 않으며, 알고리즘적 최적화가 더 중요하다"는 증거로 해석함
- 하지만 Bitter Lesson은 "알고리즘적 개선이 필요 없다"는 것이 아니라, 가능한 경우 더 많은 컴퓨팅 자원을 활용하는 것이 최선이라는 의미임
- DeepSeek은 GPU가 부족했기 때문에 최적화에 집중할 수밖에 없었으며, 만약 100K GPU로 학습했다면 더 좋은 성과를 냈을 것임
- 즉, DeepSeek이 증명한 것은 최적화의 가능성이지, "스케일링이 무의미하다"는 것이 아님
DeepSeek CEO의 입장
- CEO인 Liang Wenfeng조차 미국의 수출 규제가 더 나은 모델 개발의 주요 장애물이라고 밝힘
- 50K Hopper GPU를 사용하고도 이러한 발언을 했다는 것은 "GPU가 중요하지 않다"는 해석과 정반대의 의미를 가짐
- DeepSeek의 성공은 Bitter Lesson과 Scaling Paradigm을 지지하는 사례로 볼 수 있으며, 단지 예외적인 경우일 뿐임

III. xAI는 "스케일링 > 최적화"를 증명함

Grok 3와 xAI의 접근 방식
- xAI의 성과가 "스케일링이 최적화보다 중요하다"는 회의론자들의 인식을 바꿀 수 있을지 의문
- Grok 3의 아키텍처 변경 여부나 인프라 최적화 수준은 명확하지 않지만, 100K H100 GPU가 있는 Memphis의 Colossus 슈퍼컴퓨터에서 학습한 것은 확실함
- 이는 DeepSeek이 보유한 GPU 수보다 훨씬 많음
DeepSeek과 다른 전략
- DeepSeek은 제한된 GPU 자원을 극한까지 최적화해야 했지만, xAI는 그런 필요 없이 기존 표준 수준의 최적화만 수행하면 됨
- Bitter Lesson의 핵심은 "충분한 컴퓨팅 자원이 있다면, 불필요한 최적화에 시간 낭비하지 말고 그냥 스케일링을 하라"는 것
- xAI는 OpenAI보다도 더 많은 컴퓨팅 자원을 투입해 Grok 3을 학습했고, 그 결과 최첨단 모델을 만들어 냄
Bitter Lesson은 AI뿐만 아니라 보편적인 진리
- "주요 자원이 많다면, 보조 자원을 짜내는 데 시간을 낭비할 필요가 없음"
- 마치 사막의 프레맨(Fremen)이 땀을 재활용하는 대신, 그냥 비가 내리는 행성에서 사는 것이 더 효율적인 것과 같음
- 알고리즘 개선과 컴퓨팅 파워 증가는 모두 중요하지만, 특정 시점 이후에는 최적화보다 더 많은 자원을 투입하는 것이 효과적임
- 컴퓨팅 파워는 돈만 있으면 해결 가능하지만, 획기적인 알고리즘 개선은 예측할 수 없으며, 미래에도 확장 가능하리란 보장이 없음
스케일링을 멈추지 않는 것이 중요함
- 한계점에 부딪히면 최적화가 아니라, 스케일링할 요소를 바꾸면 됨
- 제한된 자원이 혁신을 촉진할 수 있지만, 궁극적으로 "더 많은 자원"이 "더 나은 최적화"를 이김
- DeepSeek은 어쩔 수 없이 최적화에 집중했지만, xAI나 OpenAI가 DeepSeek처럼 혁신의 제약 속에서 일하려 하지는 않을 것임
- 결국, xAI와 DeepSeek은 "막대한 자원을 투입하는 접근 vs 제한된 자원을 극한까지 활용하는 접근"의 대표적인 사례
- 두 회사 모두 주어진 환경에서 최선을 다했지만, DeepSeek이 컴퓨팅 자원 부족 상태에 머무르는 한, xAI가 유리한 위치를 유지할 가능성이 높음
- 이처럼 Bitter Lesson은 학계에서 논란이 많음에도, 지난 10년 이상 실제 AI 개발에서 유효한 법칙으로 증명되고 있음

IV. xAI와 DeepSeek을 도운 패러다임 전환

AI 경쟁에서의 후발주자의 어려움
- AI 경쟁에서 늦게 출발하는 것은 극복하기 어려운 핸디캡처럼 보였음
- 초기에 xAI가 OpenAI나 Anthropic을 따라잡을 수 있을지 확신할 수 없었음
- 그러나 Grok 2(2024년 8월)에서 Grok 3(2025년 2월)로 발전하는 동안, Colossus GPU 클러스터 외에도 xAI에 유리하게 작용한 요소가 있었음
- 바로 AI 스케일링 패러다임의 변화
사전 학습(pre-training) 시대 (2019-2024)
- 초기 AI 발전은 더 큰 모델을 더 큰 데이터셋과 더 강력한 컴퓨팅 자원으로 학습하는 것을 의미했음
- 예시: GPT-2(2019년 2월)는 15억 개의 파라미터를 가졌지만, GPT-4(2023년 3월)는 약 1.76조 개로 1,000배 이상 증가
- 이 방식은 OpenAI 같은 선발 주자에게 유리했음
  - 오랜 기간 데이터를 수집하고 모델을 키우며 GPU를 확보할 수 있었기 때문
- 또한, 각 모델을 학습하는 데 반년 이상 걸리는 경우가 많아 세대 간 반복 속도가 느려졌고, 이는 후발 주자가 따라잡기 어렵게 만드는 요인이었음
사후 학습(post-training) 시대 (2024-???)
- 2024년을 기점으로 AI 업계는 단순히 모델을 키우는 것만으로는 점진적 성능 향상이 둔화된다는 사실을 깨달음
- 언론에서는 이를 "스케일링의 시대가 끝났다"라고 오해했지만, 실제로는 패러다임이 변한 것뿐임 (Ilya Sutskever가 NeurIPS 2024에서 한 강연 참고)
- 초점이 바뀐 부분:
  - "테스트 시점 컴퓨팅(test-time compute) 확장" → 모델이 답을 더 깊이 생각할 수 있도록 하는 방식
  - 강화 학습(RLHF) + 지도 학습(SFT) 조합이 효과적임
  - 특히, 수학과 코딩처럼 정형화된 도메인에서 검증 가능한 보상 함수를 적용하면 성능 향상이 큼
- OpenAI가 o1-preview로 이를 주도했으며, 이후 AI 기업들은 더 이상 모델 크기를 키우기보다 "더 나은 사고 능력을 가진 모델"을 만드는 방향으로 전환함
새로운 패러다임이 xAI와 DeepSeek에 유리했던 이유
- 사후 학습(post-training)은 아직 초기 단계라 비교적 적은 비용으로 빠른 성능 향상을 이룰 수 있음
- OpenAI가 단 3개월 만에 o1에서 o3로 발전한 것도 이 덕분임
- DeepSeek이 더 적고 열등한 GPU를 보유하고 있음에도 R1 수준까지 따라잡을 수 있었던 것도 같은 이유
- Grok 역시 불과 2년 만에 최상위 AI 모델 수준에 도달함
경쟁 구도의 변화
- OpenAI가 여전히 일정한 우위를 점하고 있지만, 후발 주자가 따라잡기 불가능한 수준은 아님
- OpenAI는 3억(300M) 주간 이용자를 보유한 ChatGPT 운영 부담 때문에 최첨단 연구와 제품 운영을 균형 있게 조정해야 함
- 반면, xAI와 DeepSeek은 비교적 유연하게 기술 혁신에 집중할 수 있음
- DeepSeek의 앱이 인기를 끌었다가 다시 내려간 것도 컴퓨팅 자원이 부족해 대규모 추론(inference)을 감당할 수 없었기 때문
- 새로운 패러다임이 열리며, 새로운 경쟁 구도가 형성되고 있음

V. xAI와 DeepSeek의 성과를 올바르게 이해하기

Bitter Lesson과 패러다임 변화는 성과를 깎아내리지 말 것
- Bitter Lesson과 스케일링 패러다임 변화가 xAI와 DeepSeek의 성공을 쉽게 만들었지만, 결국 그들은 해냈음
- 같은 기회를 가진 다른 기업(Mistral, Character, Inflection)들은 실패했음
- Grok 3은 Bitter Lesson의 승리, DeepSeek은 예외적 사례로 규칙을 증명한 사례이지만, 그 이상의 의미를 가짐
컴퓨팅 자원만이 전부는 아님
- Bitter Lesson이 알고리즘과 인프라 최적화의 가치를 부정하지 않듯이, 기업의 인적 자원과 전략도 중요함
- xAI는 현재 약 1,000명의 직원을 보유하며, OpenAI(약 2,000명)와 Anthropic(약 700명)에 필적함
- 또한, Elon Musk의 기술 및 금융 네트워크 덕분에 xAI는 막대한 투자 유치를 쉽게 할 수 있음
- DeepSeek 역시 제한된 환경 속에서 혁신을 이루어낸 점에서 높은 평가를 받을 만함
  - 중국 내 AI 생태계는 상대적으로 야망과 경험이 부족하며, 정부의 지원도 부족했음(이 부분은 곧 바뀔 가능성이 있음)
역사적 맥락 속에서 이해해야 함
- OpenAI, Google DeepMind, Anthropic은 사전 학습(pre-training) 시대에 모델을 개발해야 했음
  - 당시 AI 스케일링은 지금보다 훨씬 더 어렵고, 속도가 느렸으며, 비용이 많이 들었음
  - ChatGPT 같은 제품이 성공할지조차 불확실했으며, OpenAI도 출시를 망설였음(처음에는 단순한 연구용 프리뷰로 공개)
  - 이들 기업은 불확실한 미래 속에서도 강한 신념으로 AI 혁신을 주도한 선구자였음
- 반면, DeepSeek과 xAI는 이 거인들의 어깨 위에서 출발
  - 기존 연구의 시행착오를 피할 수 있었고, 검증된 접근법을 활용해 빠르게 발전 가능
  - 마침 AI 패러다임이 사후 학습(post-training) 시대로 전환되면서, 적은 비용으로 빠르게 성과를 낼 수 있었음
  - 초기 AI 선구자들이 감수했던 대규모 선행 투자나 불확실성을 겪을 필요가 적었음
승리는 인정하되, 과정도 기억해야 함
- xAI와 DeepSeek의 성과를 폄하할 필요는 없지만, AI 발전이 어떻게 여기까지 왔는지도 잊지 말아야 함
- OpenAI, DeepMind, Anthropic 같은 초기 개척자들이 없었다면, 지금의 성과도 불가능했을 것
- 즉, xAI와 DeepSeek의 성공은 "운이 좋았다" 가 아니라, "좋은 타이밍에 최선을 다한 결과" 로 보는 것이 적절함

VI. 사후 학습(post-training)은 지금은 저렴하지만 곧 비싸질 것

Grok 3와 xAI가 보여준 핵심 교훈
- 현재 사후 학습(post-training)은 비교적 저렴하지만, 곧 사전 학습(pre-training)만큼이나 막대한 투자 비용이 필요하게 될 것
- 기업들이 사후 학습을 대규모로 확장하는 방법을 찾는 순간, 경쟁에서 살아남기 위해서는 돈과 컴퓨팅 자원이 필수적임
- 이미 AI 기업들은 수십만 개의 GPU를 쌓아두고 대형 클러스터를 구축하는 중
- "GPU가 중요하지 않다"는 주장과는 반대로, GPU 확보 경쟁이 AI 경쟁의 핵심 요소가 될 것
- 이 때문에 Dario Amodei(OpenAI 공동 창업자) 등은 수출 규제(export controls)의 중요성을 강조하고 있음
xAI의 강력한 포지셔닝
- 현재 xAI는 DeepSeek뿐만 아니라 OpenAI, Anthropic보다도 더 유리한 위치를 확보
- 이유: 100K H100 GPU 클러스터를 보유하고 있으며, 곧 200K로 확장 예정
- 이는 차세대 AI 개발 경쟁에서 엄청난 이점을 제공
- Meta 역시 같은 전략을 따라가며, 100K+ H100 클러스터에서 Llama 4를 학습 중
DeepSeek의 한계와 가능성
- DeepSeek의 뛰어난 엔지니어링 역량만으로는 이제 경쟁하기 어려운 단계에 접어듦
- 아무리 기술 스택을 최적화하더라도 GPU 150K개의 격차를 극복하는 것은 불가능
- 만약 가능했다면 DeepSeek도 xAI처럼 스케일링을 선택했겠지만, 미국의 수출 규제가 성장을 제한하는 요소
- 다만, Huawei와의 협력을 통해 문제를 해결할 가능성도 있음
xAI의 추가적인 이점
- OpenAI와 Anthropic조차 GPU 클러스터 확보 면에서 xAI만큼 안정적인 위치에 있지 않음
- Nvidia의 지원 덕분에 xAI는 차세대 AI 하드웨어를 최우선적으로 공급받고 있음
- Elon Musk의 네트워크와 Nvidia의 우호적 태도 덕분에 xAI는 미래 AI 경쟁에서 독보적인 우위를 점할 가능성이 높음

VII. 1년 후, 누가 앞서 있을 것인가?

기존 강자들의 우위
- 이 모든 것에도 불구하고 OpenAI, Google DeepMind, Anthropic은 여전히 약간의 선행 우위를 유지하고 있음
- OpenAI: 곧 GPT-4.5/GPT-5를 출시할 예정이며, 이후 o4 모델도 개발 중
- Anthropic: Claude 4 출시 예정
- Google DeepMind: Gemini 2.0의 "Thinking-model" 버전을 개선하면서 비용 절감 및 컨텍스트 윈도 확장을 위해 노력 중
불확실한 미래
- 2024년에는 Google이 AI 경쟁에서 앞설 것이라고 예상했지만, 지금은 확신할 수 없음
- AI 경쟁은 그 어느 때보다 치열하며, AGI(인공지능 일반화) 경쟁에서 명확한 승자는 없음
- 새로운 패러다임은 후발 주자들에게 유리하게 작용하며, 빠른 적응력을 요구함
- Google이 이러한 기민함을 갖추었는지 불확실함
- 또는, Google이 단순히 자신들의 성과를 효과적으로 홍보하지 못하는 것일 수도 있음
결론: 스케일링이 결국 승리함
- 이 글의 결론은 AI 경쟁의 승자를 예측하는 것이 아님
- 중요한 교훈은 스케일링이 결국 인간의 독창성(ingenuity)을 압도한다는 점
  - 이런 소식을 전하게 되어 안타깝지만, 어떤 일들은 우리가 감당할 수 없는 일임
- Grok 3의 성공은 또 한 번, "더 똑똑한 알고리즘"보다 "더 큰 연산 능력"이 AI 발전을 주도한다는 사실을 상기시킴

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

kobings 2025-02-23 [-]

"OpenAI는 300만 주간 이용자를 보유한 ChatGPT"
원문 보니 300M이어서 3억으로 수정 부탁드려요

답변달기

doolayer 2025-02-22 [-]

orthogonal but not orthonormal.

답변달기

GN⁺ 2025-02-21 [-]

Hacker News 의견

"co-state-of-the-art" 모델의 생성이 스케일링 법칙의 승리가 아님
- xAI가 Grok 3에 더 많은 컴퓨팅을 투입했음에도 기존 모델을 크게 능가하지 못한 것은 하이퍼 스케일링이 점진적 개선만을 가져올 뿐이라는 증거일 수 있음
- 더 많은 컴퓨팅 파워가 컴퓨터를 더 좋게 만드는 것은 당연한 관찰임
- 이 기사는 70년대의 상징적 AI와 2010년대의 신경망의 차이를 GPT-4와 Grok 3의 차이에 적용하려는 시도임
- 많은 사람들이 Grok 3의 실제 성능을 의심하며, 특정 벤치마크에 맞춰 훈련되었다고 의심함
- Sabine Hossenfelder는 Grok 3가 Bell의 정리를 설명하는 데 실패했다고 언급함
- 이는 대규모 스케일링이 지능을 향상시키지 않음을 보여줌
Deepseek는 SOTA 결과를 달성하는 데 17개월을 소요했으며, xAI의 모델은 Deepseek R1을 크게 넘어서지 않음
- xAI는 $3 billion 중 $2.5 billion을 GPU에, $0.5 billion을 인재에 투자할 것임
- Deepseek는 $1 billion을 GPU에, $2 billion을 인재에 투자할 것임
- Deepseek의 접근 방식이 더 확장 가능하다고 주장함
GPQA Diamond에서 비추론 모델이 75%를 기록한 것에 회의적임
- xAI가 Grok 3 API를 다음 주에 제공하여 개인 평가를 통해 실제 성능을 확인하고 싶음
- DeepSeek가 50k Hopper GPU를 가졌다는 것은 과장된 숫자일 수 있음
- DeepSeek의 인턴 모집 광고는 "10k A100s에 대한 무제한 접근"만 언급함
최근 변화에서 이상한 결론을 도출함
- AI 열풍에 많은 자금이 유입되고 있지만, 이는 곧 끝날 것임
- 기술 개선 경험이 많은 사람들이 장기적으로 가장 유리한 위치에 있을 것임
Grok이 다른 선도 모델과 비슷한 지능을 가진다면, 어떤 비즈니스가 Grok으로 전환할 것인지에 대한 의문
더 많은 컴퓨팅을 투입하는 것이 수십억의 비용을 초래할 때, "쓴 교훈"이 더 이상 하드웨어가 아닌 돈에 관한 것일 수 있음
- 전력 소모가 적은 모델이 VC 자금 없이도 실행 가능할 수 있는 경로가 있음
"쓴 교훈"에 대한 기사의 주장은 논리적 오류에 의존함
- 스케일링과 최적화를 상호 배타적인 전략으로 프레임화함
- DeepSeek의 알고리즘 혁신은 스케일링 노력을 보완함
- 컴퓨팅이 "포스트 트레이닝 시대"를 지배할 것이라는 주장은 잠재적 방해 요소를 간과함
인재 확보가 어떻게 진화할지 흥미로움
- 강력한 DEI 중심의 PR로 인해 많은 엔지니어들이 실망함
- 윤리적 이유로 중국과의 긴밀한 관계를 피했던 사람들이 미국에도 같은 적용을 할 것인지에 대한 의문
또 다른 AI 과대 광고 블로그 항목
- 벤치마크 결과의 색상이 다른 막대에 대한 언급조차 없음
- Grok-3는 스케일링 법칙을 의미 있는 방식으로 증명하거나 반증하지 않음

답변달기

Grok 3: The Bitter Lesson의 또 다른 승리

I. AI 발전을 지배하는 스케일링 법칙

II. DeepSeek: 법칙을 증명하는 예외

III. xAI는 "스케일링 > 최적화"를 증명함

IV. xAI와 DeepSeek을 도운 패러다임 전환

V. xAI와 DeepSeek의 성과를 올바르게 이해하기

VI. 사후 학습(post-training)은 지금은 저렴하지만 곧 비싸질 것

VII. 1년 후, 누가 앞서 있을 것인가?

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견