Grok 3: The Bitter Lesson의 또 다

▲

GN⁺ 2025-02-21 | parent | ★ favorite | on: Grok 3: The Bitter Lesson의 또 다른 승리 (thealgorithmicbridge.com)

Hacker News 의견

"co-state-of-the-art" 모델의 생성이 스케일링 법칙의 승리가 아님
- xAI가 Grok 3에 더 많은 컴퓨팅을 투입했음에도 기존 모델을 크게 능가하지 못한 것은 하이퍼 스케일링이 점진적 개선만을 가져올 뿐이라는 증거일 수 있음
- 더 많은 컴퓨팅 파워가 컴퓨터를 더 좋게 만드는 것은 당연한 관찰임
- 이 기사는 70년대의 상징적 AI와 2010년대의 신경망의 차이를 GPT-4와 Grok 3의 차이에 적용하려는 시도임
- 많은 사람들이 Grok 3의 실제 성능을 의심하며, 특정 벤치마크에 맞춰 훈련되었다고 의심함
- Sabine Hossenfelder는 Grok 3가 Bell의 정리를 설명하는 데 실패했다고 언급함
- 이는 대규모 스케일링이 지능을 향상시키지 않음을 보여줌
Deepseek는 SOTA 결과를 달성하는 데 17개월을 소요했으며, xAI의 모델은 Deepseek R1을 크게 넘어서지 않음
- xAI는 $3 billion 중 $2.5 billion을 GPU에, $0.5 billion을 인재에 투자할 것임
- Deepseek는 $1 billion을 GPU에, $2 billion을 인재에 투자할 것임
- Deepseek의 접근 방식이 더 확장 가능하다고 주장함
GPQA Diamond에서 비추론 모델이 75%를 기록한 것에 회의적임
- xAI가 Grok 3 API를 다음 주에 제공하여 개인 평가를 통해 실제 성능을 확인하고 싶음
- DeepSeek가 50k Hopper GPU를 가졌다는 것은 과장된 숫자일 수 있음
- DeepSeek의 인턴 모집 광고는 "10k A100s에 대한 무제한 접근"만 언급함
최근 변화에서 이상한 결론을 도출함
- AI 열풍에 많은 자금이 유입되고 있지만, 이는 곧 끝날 것임
- 기술 개선 경험이 많은 사람들이 장기적으로 가장 유리한 위치에 있을 것임
Grok이 다른 선도 모델과 비슷한 지능을 가진다면, 어떤 비즈니스가 Grok으로 전환할 것인지에 대한 의문
더 많은 컴퓨팅을 투입하는 것이 수십억의 비용을 초래할 때, "쓴 교훈"이 더 이상 하드웨어가 아닌 돈에 관한 것일 수 있음
- 전력 소모가 적은 모델이 VC 자금 없이도 실행 가능할 수 있는 경로가 있음
"쓴 교훈"에 대한 기사의 주장은 논리적 오류에 의존함
- 스케일링과 최적화를 상호 배타적인 전략으로 프레임화함
- DeepSeek의 알고리즘 혁신은 스케일링 노력을 보완함
- 컴퓨팅이 "포스트 트레이닝 시대"를 지배할 것이라는 주장은 잠재적 방해 요소를 간과함
인재 확보가 어떻게 진화할지 흥미로움
- 강력한 DEI 중심의 PR로 인해 많은 엔지니어들이 실망함
- 윤리적 이유로 중국과의 긴밀한 관계를 피했던 사람들이 미국에도 같은 적용을 할 것인지에 대한 의문
또 다른 AI 과대 광고 블로그 항목
- 벤치마크 결과의 색상이 다른 막대에 대한 언급조차 없음
- Grok-3는 스케일링 법칙을 의미 있는 방식으로 증명하거나 반증하지 않음