GN⁺: DeepSeek의 R1-Zero 및 R1 분석
(arcprize.org)- ARC Prize Foundation은 AGI(인공지능 일반화)를 정의하고, 측정하며, 새로운 아이디어를 고취하는 것을 목표로 함
- AGI를 아직 달성하지 못했으며, 순수 LLM(대규모 언어 모델) 사전 훈련의 확장이 해결책이 아님
- 2023-24년 동안 LLM 스타트업에 약 200억 달러가 투자된 반면, AGI 스타트업에는 약 2억 달러만 투자됨
DeepSeek의 R1-Zero와 R1 분석
- DeepSeek에서 발표한 R1-Zero와 R1 시스템이 OpenAI의 o1 시스템 수준에 가까운 결과를 보였다는 점이 큰 주목을 받고 있음
- R1-Zero와 R1 모두 약 15~20% 정도의 ARC-AGI-1 점수를 기록함
- GPT-4o가 5%를 기록한 것에 비해 훨씬 높은 점수임
- 최근 AI 산업 주류는 LLM(대규모 언어 모델)의 단순 확장에 집중해 왔지만, 이는 AGI를 실현하는 데 직접적인 해법이 아니라고 보고 있음
- ARC Prize Foundation은 ARC-AGI-1이라는 벤치마크를 통해, 새로운 문제를 학습 시키지 않은 상태에서도 적응할 수 있는 AI 시스템 연구를 장려하고 있음
R1-Zero가 R1보다 더 중요함
- DeepSeek의 연구 결과로 R1-Zero와 R1이 등장함
- R1-Zero, R1, OpenAI의 o1(low compute)은 모두 ARC-AGI-1에서 15~20%로 유사한 점수를 기록함
- 2024년 말에 OpenAI가 공개한 o3 시스템은 ARC-AGI-1에서 최대 88%까지 점수를 높여, 새로운 문제를 적응적으로 해결할 수 있다는 점을 보여줌
- 다만 o3는 비공개적인 부분이 많아 연구자들이 세부 기술을 파악하기 어려운 상황임
- R1-Zero는 R1에 비해 인간의 직접 레이블링(SFT)을 거치지 않은 점에서 미래적 가치가 더 크다고 여겨짐
R1-Zero가 인간의 병목을 제거함
-
기존의 추론 모델들은 문제 풀이 과정(Chain-of-Thought, 이하 CoT)에 대해 사람의 레이블링(SFT) 또는 기계의 보상(RL)을 결합해 학습함
-
R1-Zero는 SFT 없이, 즉 인간 전문가 레이블 없이 오직 강화학습(RL)만으로 CoT를 학습함
-
ARC-AGI-1에서 R1-Zero가 14%, R1이 15%를 기록해 거의 같은 성능을 보임
-
MATH AIME 2024 등 다른 벤치마크에서도 R1-Zero와 R1의 결과가 비슷하게 나타남
-
언어 섞임이나 가독성 문제에 대한 우려가 있었으나, 실제 테스트에서는 큰 incoherence 없이 수학·코딩 도메인에서 잘 작동하는 모습임
-
이를 통해 얻은 주요 시사점은 다음과 같음
- 사람의 레이블링 없이도 특정 도메인에서 정확하고 이해 가능한 추론이 가능함
- R1-Zero는 강화학습만으로 자체 도메인 전용 토큰 표현(DSL)을 만들 수 있음
- SFT는 추론 범위를 넓히기 위해 여전히 필요할 수 있음
-
궁극적으로, R1-Zero는 인간 의존 없이 스스로 학습 데이터를 만들어낼 수 있다는 '무인간 병목' 확장 가능성을 보여줌
-
아래는 ARC-AGI-1에서 여러 시스템이 기록한 점수와 평균 토큰 수, 추론 비용 등을 간략히 서술한 내용임
- r1-zero: 14%, SFT 없이 순차 추론 검색 없음, 평균 11K 토큰, 비용 약 $0.11
- r1: 15.8%, SFT 적용, 순차 추론 검색 없음, 평균 6K 토큰, 비용 약 $0.06
- o1(low): 20.5%, SFT 적용, 순차 추론 검색 없음, 평균 7K 토큰, 비용 약 $0.43
- o1(med): 31%, SFT 적용, 순차 추론 검색 없음, 평균 13K 토큰, 비용 약 $0.79
- o1(high): 35%, SFT 적용, 순차 추론 검색 없음, 평균 22K 토큰, 비용 약 $1.31
- o3(low): 75.7%, SFT 적용, 검색 및 샘플링 사용, 평균 335K 토큰, 비용 약 $20
- o3(high): 87.5%, SFT 적용, 검색 및 샘플링 사용, 평균 57M 토큰, 비용 약 $3,400
신뢰도를 위한 비용
- 현재 AI 시장에서 크게 변화하는 흐름은 “비용을 더 들이면 정확도와 신뢰도를 높일 수 있다”는 점임
- 더욱이, 학습 비용에서 추론 비용으로 비중이 옮겨가는 추세임
- 추론 단계에서 많은 컴퓨팅 자원을 투입하면 더 정확하고 안정적인 결과를 얻을 수 있음
- 대부분의 기업에서는 AI 시스템의 신뢰도 문제 때문에 대규모 자동화를 도입하지 못했음
- ARC-AGI 분야의 진전이 AI 에이전트의 신뢰도를 높일 것이라는 전망이 있으며, Anthropic, OpenAI, Apple 등도 에이전트형 서비스를 준비 중임
- 사용자는 필요한 정확도를 얻기 위해 더 많은 비용을 기꺼이 지불하는 경향을 보이게 될 것임
- 따라서 AI 추론 수요가 훨씬 늘어날 것으로 예상되며, 이는 컴퓨팅 자원 수요 증가로 이어질 것임
추론이 곧 학습임
- 예전에는 대규모 데이터를 수집하거나, 기존 LLM으로부터 합성(synthetic) 데이터를 생성해 학습에 이용했음
- 이제는 추론 과정에서 사용자나 시스템이 실제로 새로운 유효 데이터를 생성할 수 있게 됨
- 이는 “추론이 학습을 겸한다”는 새로운 경제학적 전환을 의미함
- 사용자 수가 많은 AI 모델은 더 많은 추론 데이터를 수집하게 되고, 그 자체가 모델 개선으로 이어짐
- 만약 SFT(인간 레이블링) 과정까지 불필요해진다면, 단순히 큰 비용을 투입해 검색·합성·검증을 반복하는 시스템으로도 효율적인 학습이 가능해질 것임
결론
- AI 시스템의 추론 수요가 증가함에 따라 시장 재평가가 지속적으로 일어날 것으로 보임
- CoT 방식과 검색(search) 기법이 결합된 오픈 소스 R1 시스템이 등장함으로써, 더 많은 연구자와 개발자가 한계를 시험하고 혁신을 가속화할 수 있을 것으로 기대됨
- R1-Zero와 R1이 공개된 것은 전 세계 AI 발전에 큰 기여가 될 것임
- 여러 팀이 ARC Prize 2025를 목표로 R1 같은 시스템을 활용하겠다는 의지를 보이고 있어, 향후 결과가 기대됨
- DeepSeek가 공개한 R1은 AGI로 가는 중요한 단서를 제시함으로써 과학적 진보에 기여했다는 점에서 긍정적인 평가를 받음
Hacker News 의견
-
AI 시스템 개발자들이 새로운 데이터 생성으로 경제적 변화가 일어날 가능성이 있음. 고객들이 데이터 생성 비용을 부담하여 모델의 품질을 향상시킬 수 있음
- 그러나, 이러한 데이터가 정말로 고품질인지에 대한 회의적인 시각이 존재함
- 현재 SOTA 모델은 GPT4 수준에 머물러 있으며, 향후 2-3년 내에 더 발전할 가능성이 있음
- 추론 모델을 사용하여 데이터를 생성하고, 이를 비추론 모델에 훈련시키는 것이 유망한 아이디어임
- 그러나, 추론을 모델 가중치에 얼마나 잘 담을 수 있을지는 미지수임
- OpenAI가 이미 o3 훈련 데이터를 사용하여 새로운 모델을 훈련했어야 한다는 의견이 있음
-
기본 모델의 개선이 필요하지 않을 수도 있으며, 일반적인 모델로 충분할 수 있음
- 추론 모델의 가격을 낮추고 품질을 향상시키는 것이 중요함
-
o3 시스템은 새로운 문제에 적응하는 컴퓨터의 첫 번째 실용적 구현을 보여줌
- 그러나, OpenAI가 o3를 75%의 공공 훈련 세트로 훈련했다고 발표했으며, ARC-AGI 데이터의 성능 기여도는 아직 테스트되지 않음
-
인간의 병목 현상을 제거하는 주장이 있으나, 수학과 컴퓨터 과학을 제외한 대부분의 분야에서는 검증 가능한 보상을 정의하기 어려움
-
AI 경제에서 두 가지 주요 변화가 발생하고 있음
- 더 많은 비용을 지불하여 높은 정확도와 신뢰성을 얻을 수 있음
- 훈련 비용이 추론 비용으로 이동하고 있음
- 이는 추론에 대한 수요를 증가시키고, 컴퓨팅 수요를 증가시킬 것임
-
o3가 AGI-1에서 75%를 기록했으며, R1과 o1은 25%에 그쳤음
-
많은 컴퓨팅이 추론으로 이동하는 것은 현재 AI 투자에 큰 영향을 미침
- NVDA에게는 나쁜 소식이며, 추론 중심 솔루션이 더 나은 경제성을 가짐
-
Baseten의 Mike는 이 작업을 지원하게 되어 자랑스럽다고 밝힘
-
R1-Zero는 인간의 병목 현상이 없는 잠재적 확장 체제를 보여줌
- 그러나, RL 방식이 여전히 많은 인간 데이터를 필요로 한다는 의문이 있음
-
R1은 비용 대비 성능 면에서 뛰어난 성과를 보임
- 복잡한 문제의 데이터 생성기로 R1을 사용하는 것이 유망하다고 생각됨
-
LLM의 미래는 맞춤형 개별 앱에 있을 것으로 예측됨
- AI 에이전트에게 원하는 앱과 요구사항을 말하면, 백엔드부터 프론트엔드까지 모든 것을 구축함
- 소프트웨어를 테스트하고 오류를 수정하며, 프로덕션에 배포함
- 현재 LLM이 완벽하지는 않지만, 자동으로 코드를 실행하고 컴파일하며, 오류를 LLM에 피드백하는 시스템과 워크플로우가 이미 존재함