GN⁺: R1과 그외 모든 것들에 대한 설명
(timkellogg.me)- 갑자기 튀어나온 R1, 그리고 o1과 o3 등 빠르게 변하는 것들을 이해하기 위한 현재 상황 정리
타임라인
- 2024년 9월 12일: o1-preview 출시
- 2024년 12월 5일: o1 정식 버전 및 o1-pro 출시
- 2024년 12월 20일: o3 발표 (ARC-AGI 통과, “AGI”로 주목받음)
- 2024년 12월 26일: DeepSeek V3 출시
- 2025년 1월 20일: DeepSeek R1 출시 (o1과 유사한 성능인데 오픈 소스)
- 2025년 1월 25일: 홍콩대학교 연구진이 R1 결과 복제 성공
- 2025년 1월 25일: Huggingface에서 R1을 복제한 완전 오픈소스 open-r1 프로젝트 발표
- 확실히 하기 위해
- o1, o3, R1은 모두 추론(Reasoning) 모델임
- DeepSeek V3는 LLM(기초 모델)이며 추론 모델은 이를 파인튜닝하여 만듦
- ARC-AGI-1은 유동적 지능(fluid intelligence)에 대한 가장 간단하고 기본적인 평가임. 불합격은 낯선 상황에서 적응하거나 문제를 해결하는 데 거의 전적으로 무능하다는 것을 의미
# Reasoning & Agents
추론 모델 != Agents
- 추론(Reasoning) 모델은 답변을 생성하기 전에 “생각” 과정을 거치는 모델임
- LLM은 토큰을 생성하는 것으로 생각함
- 그래서 우리는 모델이 정답을 찾아내길 바라며 수많은 토큰을 생성하도록 모델을 훈련시키고 있음
- AI 에이전트(Agent)는 2가지에 의해 정의됨
- 의사 결정 및 작업 완료를 위한 Autonomy(agency)
- 외부 세계와의 상호작용(Interact)하는 능력
- LLM이나 추론 모델 그 자체만으로는 토큰을 생성할 뿐이므로 이 두 가지 기능을 수행할 수 없음
- 실제 의사 결정을 내리고 상호 작용 기능을 제공하려면 소프트웨어가 필요
- 에이전트는 AI들의 시스템임. 세상과 자율적으로 상호작용할 수 있도록 여러 모델과 소프트웨어가 결합된 것. 하드웨어도 마찬가지.
추론은 중요함
- 추론 모델이 에이전트와 혼동되는 이유는 현재 추론이 병목 현상을 일으키고 있기 때문
- 작업을 계획하고, 감독하고, 검증하고, 현명해지기 위해서는 추론 능력이 필수적임
- 추론 능력이 없이는 에이전트를 만들수 없지만, 추론 벤치마크가 포화상태에 도달하면 새로운 도전이 생길 것
추론은 더 저렴해져야함
- 에이전트는 몇시간에서 몇일, 또는 24/7 쉬지않고 동작함
- 이것이 자율적으로 행동하는 것의 본질이며, 따라서 비용이 증가함
- 현재로서는 R1이 o1보다 약 30배 저렴하면서도 비슷한 성능을 제공
# 왜 R1이 중요한가
- 저렴하고, 오픈 소스이며, o1 및 o3와 비슷한 성능을 검증했다는 점에서 의미가 큼
- 공개된 문서를 기반으로 o1의 작동 방식에 대한 몇 가지 예측이 있었고, R1 공개 논문은 이 모든 것을 거의 전적으로 입증함. 그래서 우리는 어떻게 o1이 o3,o4로 확장하는지 알게됨
- 또한 오픈소스이기 때문에 전 세계 누구나 자신의 아이디어로 실행할 수 있음
- 지난 한주간 R1을 재구현 해본 사람들의 타임라인을 보면 알수 있음(일부는 $30으로 만들었다고도 함)
- 혁신은 빠르고 저렴하게 반복할 수 있을 때 일어나며, R1은 그러한 환경을 조성했음
- 가장 중요한 것은 R1이 복잡한 아이디어(DPO, MCTS) 대신 단순한 RL 방식으로도 충분한 추론 성능 달성 가능함을 보여줬다는 것
# AI 발전 추세
사전 학습(Pretraining) 확장 한계에 도달
- GPT-4 이후로 대규모 데이터와 컴퓨팅 자원을 단순히 늘리는 기존 ‘스케일링 법칙’에 한계가 보이기 시작함
- 데이터 확보 문제와 새로운 추론 방식으로 인해 예전 방식만으로는 큰 효과를 내기 어려워졌다는 평가임
추론 시간(Inference Time) 스케일링 법칙
- o1과 r1 같은 추론 모델은 ‘더 오래 생각할수록 성능이 좋아지는’ 경향이 있음
- 하지만 더 나은 결과를 얻기 위해, 정확히 어떻게 더 많은 연산을 수행해야 하는지는 명확하지 않았음
- 순진한 가정은 생각의 연쇄(CoT)가 작동할 수 있다는 것이었고, 모델에 CoT를 수행하도록 훈련하기만 하면 된다는 것이었음
- 문제는 어떻게 효율적으로 해답에 이르는 가장 빠른 경로를 찾느냐는 것
- Entropix는 하나의 아이디어로, 모델의 내부 신호를 사용해 가장 효율적인 경로를 찾음
- 몬테카를로 트리 검색(MCTS)과 같이 많은 경로를 생성하지만 단 하나의 경로만 선택하는 방법도 있었음
- CoT가 최고라는 것이 밝혀짐
- R1은 RL을 적용한 단순한 싱글라인 체인 오브 소트(CoT)를 하고 있음
- 아마 o1도 같은 일을 하고 있을거라 가정이 가능
축소된 모델들(Down-Sized Models)
- 첫 시작은 GPT-4-turbo 였고, 그 다음은 GPT-4o, Claude 시리즈 및 다른 모델 LLM들. 모두 24년 내내 점점 더 작아지고 저렴해짐
- 추론을 위해 많은 토큰을 생성해야 하므로, 모델 크기가 작을수록 계산 속도가 빨라져 효율이 높아짐
- “더 작은 모델 = 더 똑똑함”
강화 학습(Reinforcement Learning)
- R1은 GRPO(Group Rewards Policy Optimization)라는 간단한 RL 접근을 사용하여 추론 시점에 CoT를 수행하도록 모델을 학습 시켰음
- 복잡한 검증기나 외부 LLM이 필요하지 않음. 정확도와 출력 형식에 대한 기본 보상 기능을 갖춘 RL만 있으면 됨
- R1-Zero는 DeepSeek의 R1 버전으로, GRPO만 처리하고 다른 기능은 지원하지 않음
- R1보다 정확도는 높지만 영어와 중국어 등 다양한 언어 사이를 마음대로 오가기 때문에 일반적으로 다국어를 구사하지 않는 일반 사용자에게는 적합하지 않음
- 왜 R1-Zero가 언어간에 점프를 할까?
- 내 생각은 "언어마다 다른 종류의 개념을 더 효과적으로 표현하기 때문"
- “what’s the german word for [paragraph of text]?” 라는 밈이 있음
- 25년 1월 25일 현재, 누군가가 "어떤 RL이든 모두 가능하다"는 것을 시연해 냄
- GRPO, PPO, PRIME을 모두 시도했는데 모두 잘 작동함
- 매직 넘버는 1.5B. 모델 파라미터가 1.5B(15억) 이상이 되면 어떤 RL 기법을 적용해도 추론 능력이 발현된다는 것
- 과연 어디까지 확장하게 될까 ?
모델 증류(Model Distillation)
- R1은 자체의 이전 체크포인트로부터 증류(distilled)한 것
- 증류는 한 교사(teacher) 모델이 학생 모델에 대한 학습 데이터를 생성하는 것으로 일반적으로 교사가 학생보다 더 큰 모델이라고 가정함
- R1은 동일한 모델의 이전 체크포인트를 사용하여 지도 미세 조정(SFT)을 위한 학습 데이터를 생성했음
- SFT와 RL을 반복하여 모델을 개선함
- 이게 어디까지 갈 수 있을까?
- 아주 오래전에(9일전)는 GPT5가 존재하며 GPT4o는 이를 증류한 것일 뿐이라는 예측이 있었음
- 이 글은 OpenAI와 Anthropic이 큰 모델을 학습시킨 다음 증류하고, 증류된 모델을 사용하여 더 큰 모델을 만드는 사이클을 계속 만들어낸다는 이론을 세움
- R1 논문은 이것이 가능하다는 것을 대체로 확인시켜주었다고 얘기하고 싶음(따라서 실제로 일어날 가능성이 높음)
- 그렇다면 이는 매우 오랫동안 지속될 수 있음
- 참고: 일부 실험에 따르면 학생 모델이 선생 모델을 넘어설 수도 있음. 실제로 얼마나 이런 일이 일어나는지는 확실하지 않음
- 직관적으로는 증류를 통해서 학생이 신호를 찾고 더 빨리 수렴하는 데 도움이 될 수 있다는 것
- Model collapse는 여전히 가장 큰 걱정거리이지만, 이는 대부분 불필요한 두려움인 것 같음
- 모델 붕괴는 확실히 항상 가능하지만 결코 보장되는 것은 아니며 반대 방향으로 진행하여 학생이 교사를 능가하는 방법도 있음
# 2025년 전망
- 현재 상황:
- 사전 학습은 어려움(죽지는 않음)
- 추론 스케일링
- 모델 다운사이징
- RL 스케일링 법칙
- 모델 증류에 의한 스케일링 법칙
- AI 발전 속도가 느려지는 것 같지는 않음. 하나의 스케일링 법칙이 느려지고 4개의 법칙이 더 나타났음
- 이 추세는 당분간 계속 가속화 될 것
지정학적 이슈 : Distealing
- "Distealing"은 내가 만든 단어로 모델을 "무단 증류"하는 것
- 이제 소프트웨어는 정치이며 그 중심에는 AI가 있음
- AI는 거의 모든 정치적 축에 고려되고 있는 것 같으며 가장 흥미로운 것은 중국 대 미국
- 전략
- 미국: 막대한 자금 지원. 가능한 한 빨리 AI 불에 돈을 쏟아붇기
- 중국: 억압적인 수출 규제 때문에 더 똑똑한 엔지니어와 연구자를 동원해서 더 저렴한 솔루션 찾기에 투입
- 유럽: 규제 또는 오픈소스 AI, 둘중 어떤 것이든 좋음
- DeepSeek가 o1을 무단 증류(“distealing”)했는지 여부에 대한 논란이 있으나, R1의 복제본을 고려했을때 현재는 독자적으로 R1을 개발했을 가능성이 높게 거론됨
- 하지만 중국 연구소가 빠른 속도로 OpenAI의 최고모델을 추월했다는 점에서 긴장감이 감도는 중
- AI는 곧(아직은 아니더라도) 기하급수적인 속도로 능력이 향상될 것
- 정치적, 지정학적 영향은 엄청나게 클 것
- 오히려 인공지능에 종사하는 사람들은 정치에 더 많은 관심을 기울이고 어떤 정책이 좋은지 나쁜지에 대해 열린 마음을 가져야 함
결론
- 가장 중요한 점은 R1이 이전에 불투명했던 부분을 명확하게 제공한다는 것
- 따라서 AI의 미래는 더욱 명확해졌고, 그 속도는 빠르게 빨라지고 있는 것으로 보임
- Deepseek - 중국 AI 경쟁을 선도하는 조용한 거인
- DeepSeek-R1 모델 공개
- DeepSeek의 R1-Zero 및 R1 분석
- 코딩에서 DeepSeek R1이 유망한 결과를 냄
- Meta의 생성형 AI 조직은 DeepSeek때문에 충격에 빠져있음
- $2000 EPYC 서버에서 DeepSeek R1 671b 모델을 로컬 실행 하는 법
- Open-R1: DeepSeek-R1의 완전한 오픈소스 재현 프로젝트
- 일러스트레이티드 DeepSeek-R1
- DeepSeek-R1 Dynamic 1.58-bit 모델 실행하기
- Anthropic CEO 다리오 아모데이: DeepSeek 모델은 그리 놀랍지 않다
- DeepSeek v3에 대한 노트 - "정말로 GPT-4o나 3.5 Sonnet보다 좋은가?"
- 경쟁과 DeepSeek이 Nvidia에 미치는 영향
- Nvidia의 5,890억 달러 DeepSeek Rout(패배)
- DeepSeek, Text-To-Image 생성 모델 Janus Pro 공개 [PDF]
distealing이라 이제와서 나무라기에는 태동기 LLaMA 1 시절부터 GPT에서 증류한 Alpaca, Vicuna 모델이 있었고, 지금 프론티어 랩에서도 서로 모델 출력으로 학습 안하는 곳이 없습니다.
사실상 지금 프론티어 모델들은 GPT에서 증류한 근친교배 유전자에 연구실 입맛에 따라 RLHF한게 대부분
지금 제일 걱정해야 할 것은 중국의 무단증류나 검열이 아니라
DeepSeek 미친 효율성의 배경인 MLA, MTP, mixed precision framework, GRPO을 순수 100% 중국 대학 출신만으로 만들었다는게 충격입니다.
미국에서는 제 2의 스푸트니크 쇼크라는 말 까지 나오는 중...
무단증류를, 증류를 뜻하는 distilling과 (발음이 같은 일종의 pun으로서) 구별하기 위해서 distealing이라는 단어를 저자가 만들어낸 것 같습니다(글에 언급되어 있습니다).
Geopolitics: Distealing
지정학적 이슈 : Distealing
I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
"Distealing"은 내가 만든 단어로 모델을 "무단 증류"하는 것
Hacker News 의견
-
R1이 복잡한 아이디어를 단순한 강화 학습으로 대체했다는 주장에 대해, 실제로는 강화 학습과 감독 학습을 혼합하여 사용했음. 감독 학습에 사용된 데이터는 모델 생성이 아닌 인간이 선별한 것일 가능성이 있음
- R1을 재현하려는 시도가 있으며, 일부는 $30로 가능하다고 주장하지만, 이는 R1 자체가 아닌 R1의 미세 조정일 수 있음
- Hugging Face가 R1을 재현하려고 하지만, 이는 상당히 큰 작업이며 $30로 해결할 수 있는 일이 아님
-
기사에 과장된 내용이 많아 신뢰하기 어려움
- 다양한 모델의 벤치마크가 수학과 코딩 정확성에 초점을 맞추고 있지만, 특정 사용 사례에서는 이러한 기능이 중요하지 않음. 개념을 벤치마크하기는 어려움
- 증류를 통해 수학과 코딩 요소를 제거한 모델을 만들 수 있는지에 대한 질문이 제기됨
-
R1이 주류 뉴스에 등장하면서 혼란과 경각심을 불러일으켰음. 중국이 미국을 위협하는 것이 아니라는 점을 설명하기 어려움
- AI의 능력이 기하급수적으로 증가할 것이라는 결론에 대해, R1이 오픈 소스 모델로 o1 수준을 달성한 것이 유일한 데이터 포인트임. 이는 두 가지 매우 관련 없는 주제임
-
AI가 이미 추론을 하고 있는지에 대한 질문이 제기됨
- ARC-AGI는 인간에게는 간단하지만 AI에게는 매우 어려운 벤치마크임. 이를 해결하면 AI가 인간과 같은 일을 할 수 있다는 오해가 있음
- ARC-AGI의 창시자인 François Chollet는 ARC-AGI-1이 얼마나 간단했는지, 이를 해결하는 것이 무엇을 의미하는지에 대해 설명함
- ARC-AGI-1을 통과하면 시스템이 비제로 유동 지능을 보유하고 있음을 나타내지만, 시스템의 지능 수준이나 인간 지능과의 근접성을 나타내지는 않음
-
AI의 능력이 곧 기하급수적으로 증가할 것이라는 결론은 근거가 부족함. 저자가 어떻게 이 결론에 도달했는지 알 수 있으면 좋겠음