# R1과 그외 모든 것들에 대한 설명

> Clean Markdown view of GeekNews topic #18930. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18930](https://news.hada.io/topic?id=18930)
- GeekNews Markdown: [https://news.hada.io/topic/18930.md](https://news.hada.io/topic/18930.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-27T10:21:30+09:00
- Updated: 2025-01-27T10:21:30+09:00
- Original source: [timkellogg.me](https://timkellogg.me/blog/2025/01/25/r1)
- Points: 41
- Comments: 9

## Summary

R1은 o1과 유사한 성능을 제공하면서도 약 30배 저렴하고 오픈 소스로 제공되어 많은 사람들이 쉽게 접근할 수 있는 점에서 큰 의미가 있습니다. 추론 모델은 에이전트와 혼동될 수 있지만, 실제로는 의사 결정 및 상호작용 기능을 제공하기 위해 소프트웨어가 필요하며, R1은 단순한 강화 학습 방식을 통해 충분한 추론 성능을 달성할 수 있음을 보여주었습니다. AI의 발전은 사전 학습의 한계를 넘어 추론 스케일링, 모델 다운사이징, 강화 학습 및 모델 증류를 통해 계속 가속화될 것으로 보입니다.

## Topic Body

- 갑자기 튀어나온 R1, 그리고 o1과 o3 등 빠르게 변하는 것들을 이해하기 위한 현재 상황 정리   
  
### 타임라인  
- 2024년 9월 12일: o1-preview 출시  
- 2024년 12월 5일: o1 정식 버전 및 o1-pro 출시  
- 2024년 12월 20일: o3 발표 (ARC-AGI 통과, “AGI”로 주목받음)  
- 2024년 12월 26일: DeepSeek V3 출시  
- 2025년 1월 20일: DeepSeek R1 출시 (o1과 유사한 성능인데 오픈 소스)  
- 2025년 1월 25일: 홍콩대학교 연구진이 R1 결과 복제 성공  
- 2025년 1월 25일: Huggingface에서 R1을 복제한 완전 오픈소스 open-r1 프로젝트 발표  
- 확실히 하기 위해   
  - o1, o3, R1은 모두 추론(Reasoning) 모델임  
  - DeepSeek V3는 LLM(기초 모델)이며 추론 모델은 이를 파인튜닝하여 만듦  
  - ARC-AGI-1은 유동적 지능(fluid intelligence)에 대한 가장 간단하고 기본적인 평가임. 불합격은 낯선 상황에서 적응하거나 문제를 해결하는 데 거의 전적으로 무능하다는 것을 의미  
  
### # Reasoning & Agents  
  
#### 추론 모델 != Agents  
- 추론(Reasoning) 모델은 답변을 생성하기 전에 “생각” 과정을 거치는 모델임  
  - LLM은 토큰을 생성하는 것으로 생각함   
  - 그래서 우리는 모델이 정답을 찾아내길 바라며 수많은 토큰을 생성하도록 모델을 훈련시키고 있음  
- AI 에이전트(Agent)는 2가지에 의해 정의됨   
  - 의사 결정 및 작업 완료를 위한 Autonomy(agency)  
  - 외부 세계와의 상호작용(Interact)하는 능력  
- LLM이나 추론 모델 그 자체만으로는 토큰을 생성할 뿐이므로 이 두 가지 기능을 수행할 수 없음  
  - 실제 의사 결정을 내리고 상호 작용 기능을 제공하려면 소프트웨어가 필요  
- 에이전트는 AI들의 시스템임. 세상과 자율적으로 상호작용할 수 있도록 여러 모델과 소프트웨어가 결합된 것. 하드웨어도 마찬가지.   
  
### 추론은 중요함  
- 추론 모델이 에이전트와 혼동되는 이유는 현재 추론이 병목 현상을 일으키고 있기 때문  
- 작업을 계획하고, 감독하고, 검증하고, 현명해지기 위해서는 추론 능력이 필수적임  
- 추론 능력이 없이는 에이전트를 만들수 없지만, 추론 벤치마크가 포화상태에 도달하면 새로운 도전이 생길 것   
  
### 추론은 더 저렴해져야함   
- 에이전트는 몇시간에서 몇일, 또는 24/7 쉬지않고 동작함  
- 이것이 자율적으로 행동하는 것의 본질이며, 따라서 비용이 증가함   
- 현재로서는 R1이 o1보다 약 30배 저렴하면서도 비슷한 성능을 제공   
  
### # 왜 R1이 중요한가   
- 저렴하고, 오픈 소스이며, o1 및 o3와 비슷한 성능을 검증했다는 점에서 의미가 큼  
- 공개된 문서를 기반으로 o1의 작동 방식에 대한 몇 가지 예측이 있었고, R1 공개 논문은 이 모든 것을 거의 전적으로 입증함. 그래서 우리는 어떻게 o1이 o3,o4로 확장하는지 알게됨   
- 또한 오픈소스이기 때문에 전 세계 누구나 자신의 아이디어로 실행할 수 있음   
- 지난 한주간 R1을 재구현 해본 사람들의 타임라인을 보면 알수 있음(일부는 $30으로 만들었다고도 함)  
- 혁신은 빠르고 저렴하게 반복할 수 있을 때 일어나며, R1은 그러한 환경을 조성했음   
- 가장 중요한 것은 R1이 복잡한 아이디어(DPO, MCTS) 대신 단순한 RL 방식으로도 충분한 추론 성능 달성 가능함을 보여줬다는 것   
  
### # AI 발전 추세  
  
#### 사전 학습(Pretraining) 확장 한계에 도달   
- GPT-4 이후로 대규모 데이터와 컴퓨팅 자원을 단순히 늘리는 기존 ‘스케일링 법칙’에 한계가 보이기 시작함  
- 데이터 확보 문제와 새로운 추론 방식으로 인해 예전 방식만으로는 큰 효과를 내기 어려워졌다는 평가임  
  
#### 추론 시간(Inference Time) 스케일링 법칙  
- o1과 r1 같은 추론 모델은 ‘더 오래 생각할수록 성능이 좋아지는’ 경향이 있음  
- 하지만 더 나은 결과를 얻기 위해, 정확히 어떻게 더 많은 연산을 수행해야 하는지는 명확하지 않았음   
- 순진한 가정은 생각의 연쇄(CoT)가 작동할 수 있다는 것이었고, 모델에 CoT를 수행하도록 훈련하기만 하면 된다는 것이었음   
- 문제는 어떻게 효율적으로 해답에 이르는 가장 빠른 경로를 찾느냐는 것  
  - Entropix는 하나의 아이디어로, 모델의 내부 신호를 사용해 가장 효율적인 경로를 찾음   
  - 몬테카를로 트리 검색(MCTS)과 같이 많은 경로를 생성하지만 단 하나의 경로만 선택하는 방법도 있었음  
- CoT가 최고라는 것이 밝혀짐   
  - R1은 RL을 적용한 단순한 싱글라인 체인 오브 소트(CoT)를 하고 있음  
  - 아마 o1도 같은 일을 하고 있을거라 가정이 가능   
  
#### 축소된 모델들(Down-Sized Models)  
- 첫 시작은 GPT-4-turbo 였고, 그 다음은 GPT-4o, Claude 시리즈 및 다른 모델 LLM들. 모두 24년 내내 점점 더 작아지고 저렴해짐   
- 추론을 위해 많은 토큰을 생성해야 하므로, 모델 크기가 작을수록 계산 속도가 빨라져 효율이 높아짐  
- “더 작은 모델 = 더 똑똑함”  
  
#### 강화 학습(Reinforcement Learning)  
- R1은 GRPO(Group Rewards Policy Optimization)라는 간단한 RL 접근을 사용하여 추론 시점에 CoT를 수행하도록 모델을 학습 시켰음   
- 복잡한 검증기나 외부 LLM이 필요하지 않음. 정확도와 출력 형식에 대한 기본 보상 기능을 갖춘 RL만 있으면 됨  
- R1-Zero는 DeepSeek의 R1 버전으로, GRPO만 처리하고 다른 기능은 지원하지 않음   
  - R1보다 정확도는 높지만 영어와 중국어 등 다양한 언어 사이를 마음대로 오가기 때문에 일반적으로 다국어를 구사하지 않는 일반 사용자에게는 적합하지 않음   
- 왜 R1-Zero가 언어간에 점프를 할까?   
  - 내 생각은 "언어마다 다른 종류의 개념을 더 효과적으로 표현하기 때문"  
  - “what’s the german word for [paragraph of text]?” 라는 밈이 있음   
- 25년 1월 25일 현재, 누군가가 "어떤 RL이든 모두 가능하다"는 것을 시연해 냄   
  - GRPO, PPO, PRIME을 모두 시도했는데 모두 잘 작동함   
  - 매직 넘버는 1.5B. 모델 파라미터가 1.5B(15억) 이상이 되면 어떤 RL 기법을 적용해도 추론 능력이 발현된다는 것   
- 과연 어디까지 확장하게 될까 ?  
  
#### 모델 증류(Model Distillation)  
- R1은 자체의 이전 체크포인트로부터 증류(distilled)한 것  
- 증류는 한 교사(teacher) 모델이 학생 모델에 대한 학습 데이터를 생성하는 것으로 일반적으로 교사가 학생보다 더 큰 모델이라고 가정함  
  - R1은 동일한 모델의 이전 체크포인트를 사용하여 지도 미세 조정(SFT)을 위한 학습 데이터를 생성했음  
  - SFT와 RL을 반복하여 모델을 개선함   
- 이게 어디까지 갈 수 있을까?   
- 아주 오래전에(9일전)는 GPT5가 존재하며 GPT4o는 이를 증류한 것일 뿐이라는 예측이 있었음   
  - [이 글](https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything)은 OpenAI와 Anthropic이 큰 모델을 학습시킨 다음 증류하고, 증류된 모델을 사용하여 더 큰 모델을 만드는 사이클을 계속 만들어낸다는 이론을 세움  
  - R1 논문은 이것이 가능하다는 것을 대체로 확인시켜주었다고 얘기하고 싶음(따라서 실제로 일어날 가능성이 높음)  
- 그렇다면 이는 매우 오랫동안 지속될 수 있음   
- 참고: 일부 실험에 따르면 학생 모델이 선생 모델을 넘어설 수도 있음. 실제로 얼마나 이런 일이 일어나는지는 확실하지 않음   
  - 직관적으로는 증류를 통해서 학생이 신호를 찾고 더 빨리 수렴하는 데 도움이 될 수 있다는 것  
  - [Model collapse](https://www.nature.com/articles/s41586-024-07566-y)는 여전히 가장 큰 걱정거리이지만, 이는 대부분 불필요한 두려움인 것 같음   
  - 모델 붕괴는 확실히 항상 가능하지만 결코 보장되는 것은 아니며 반대 방향으로 진행하여 학생이 교사를 능가하는 방법도 있음   
  
### # 2025년 전망  
- 현재 상황:  
  - 사전 학습은 어려움(죽지는 않음)  
  - 추론 스케일링   
  - 모델 다운사이징   
  - RL 스케일링 법칙   
  - 모델 증류에 의한 스케일링 법칙   
- AI 발전 속도가 느려지는 것 같지는 않음. 하나의 스케일링 법칙이 느려지고 4개의 법칙이 더 나타났음   
- 이 추세는 당분간 계속 가속화 될 것   
  
### 지정학적 이슈 : Distealing  
- "Distealing"은 내가 만든 단어로 모델을 "무단 증류"하는 것  
- 이제 소프트웨어는 정치이며 그 중심에는 AI가 있음  
  - AI는 거의 모든 정치적 축에 고려되고 있는 것 같으며 가장 흥미로운 것은 중국 대 미국  
- 전략   
  - 미국: 막대한 자금 지원. 가능한 한 빨리 AI 불에 돈을 쏟아붇기   
  - 중국: 억압적인 수출 규제 때문에 더 똑똑한 엔지니어와 연구자를 동원해서 더 저렴한 솔루션 찾기에 투입   
  - 유럽: 규제 또는 오픈소스 AI, 둘중 어떤 것이든 좋음   
- DeepSeek가 o1을 무단 증류(“distealing”)했는지 여부에 대한 논란이 있으나, R1의 복제본을 고려했을때 현재는 독자적으로 R1을 개발했을 가능성이 높게 거론됨  
  - 하지만 중국 연구소가 빠른 속도로 OpenAI의 최고모델을 추월했다는 점에서 긴장감이 감도는 중   
- AI는 곧(아직은 아니더라도) 기하급수적인 속도로 능력이 향상될 것   
  - 정치적, 지정학적 영향은 엄청나게 클 것  
  - 오히려 인공지능에 종사하는 사람들은 정치에 더 많은 관심을 기울이고 어떤 정책이 좋은지 나쁜지에 대해 열린 마음을 가져야 함   
  
### 결론  
- 가장 중요한 점은 R1이 이전에 불투명했던 부분을 명확하게 제공한다는 것  
- 따라서 AI의 미래는 더욱 명확해졌고, 그 속도는 빠르게 빨라지고 있는 것으로 보임

## Comments



### Comment 34028

- Author: xguru
- Created: 2025-02-02T12:39:18+09:00
- Points: 1

- [Deepseek - 중국 AI 경쟁을 선도하는 조용한 거인](https://news.hada.io/topic?id=18530)  
- [DeepSeek-R1 모델 공개](https://news.hada.io/topic?id=18824)  
- [DeepSeek의 R1-Zero 및 R1 분석](https://news.hada.io/topic?id=18978)  
- [코딩에서 DeepSeek R1이 유망한 결과를 냄](https://news.hada.io/topic?id=18954)  
- [Meta의 생성형 AI 조직은 DeepSeek때문에 충격에 빠져있음](https://news.hada.io/topic?id=18896)  
- [$2000 EPYC 서버에서 DeepSeek R1 671b 모델을 로컬 실행 하는 법](https://news.hada.io/topic?id=19008)  
- [Open-R1: DeepSeek-R1의 완전한 오픈소스 재현 프로젝트](https://news.hada.io/topic?id=18960)  
- [일러스트레이티드 DeepSeek-R1](https://news.hada.io/topic?id=18952)  
- [DeepSeek-R1 Dynamic 1.58-bit 모델 실행하기](https://news.hada.io/topic?id=18955)  
- [Anthropic CEO 다리오 아모데이: DeepSeek 모델은 그리 놀랍지 않다](https://news.hada.io/topic?id=18980)  
- [DeepSeek v3에 대한 노트 - "정말로 GPT-4o나 3.5 Sonnet보다 좋은가?"](https://news.hada.io/topic?id=18560)  
- [경쟁과 DeepSeek이 Nvidia에 미치는 영향](https://news.hada.io/topic?id=18938)  
- [ Nvidia의 5,890억 달러 DeepSeek Rout(패배)](https://news.hada.io/topic?id=18951)  
- [DeepSeek, Text-To-Image 생성 모델 Janus Pro 공개 [PDF]](https://news.hada.io/topic?id=18944)

### Comment 33898

- Author: mammal
- Created: 2025-01-27T14:14:20+09:00
- Points: 1

distealing이라 이제와서 나무라기에는 태동기 LLaMA 1 시절부터 GPT에서 증류한 Alpaca, Vicuna 모델이 있었고, 지금 프론티어 랩에서도 서로 모델 출력으로 학습 안하는 곳이 없습니다.  
  
사실상 지금 프론티어 모델들은 GPT에서 증류한 근친교배 유전자에 연구실 입맛에 따라 RLHF한게 대부분

### Comment 33899

- Author: mammal
- Created: 2025-01-27T14:32:08+09:00
- Points: 1
- Parent comment: 33898
- Depth: 1

지금 제일 걱정해야 할 것은 중국의 무단증류나 검열이 아니라  
  
DeepSeek 미친 효율성의 배경인 MLA, MTP, mixed precision framework, GRPO을 순수 100% 중국 대학 출신만으로 만들었다는게 충격입니다.  
  
미국에서는 제 2의 스푸트니크 쇼크라는 말 까지 나오는 중...

### Comment 33894

- Author: luminance
- Created: 2025-01-27T13:09:00+09:00
- Points: 1

distealing은 distilling를 적으려고 했던 게 아닌가요?

### Comment 33897

- Author: grogu
- Created: 2025-01-27T13:48:55+09:00
- Points: 1
- Parent comment: 33894
- Depth: 1

무단증류를, 증류를 뜻하는 distilling과 (발음이 같은 일종의 pun으로서) 구별하기 위해서 distealing이라는 단어를 저자가 만들어낸 것 같습니다(글에 언급되어 있습니다).

### Comment 33905

- Author: luminance
- Created: 2025-01-27T22:42:37+09:00
- Points: 1
- Parent comment: 33897
- Depth: 2

설명 감사합니다.

### Comment 33896

- Author: savvykang
- Created: 2025-01-27T13:46:13+09:00
- Points: 1
- Parent comment: 33894
- Depth: 1

> Geopolitics: Distealing  
> 지정학적 이슈 : Distealing  
  
> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.  
> "Distealing"은 내가 만든 단어로 모델을 "무단 증류"하는 것

### Comment 33906

- Author: luminance
- Created: 2025-01-27T22:42:51+09:00
- Points: 1
- Parent comment: 33896
- Depth: 2

원문에 내용이 있었군요. 감사합니다.

### Comment 33887

- Author: neo
- Created: 2025-01-27T10:21:30+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42827601) 
- R1이 복잡한 아이디어를 단순한 강화 학습으로 대체했다는 주장에 대해, 실제로는 강화 학습과 감독 학습을 혼합하여 사용했음. 감독 학습에 사용된 데이터는 모델 생성이 아닌 인간이 선별한 것일 가능성이 있음
  - R1을 재현하려는 시도가 있으며, 일부는 $30로 가능하다고 주장하지만, 이는 R1 자체가 아닌 R1의 미세 조정일 수 있음
  - Hugging Face가 R1을 재현하려고 하지만, 이는 상당히 큰 작업이며 $30로 해결할 수 있는 일이 아님

- 기사에 과장된 내용이 많아 신뢰하기 어려움
  - 다양한 모델의 벤치마크가 수학과 코딩 정확성에 초점을 맞추고 있지만, 특정 사용 사례에서는 이러한 기능이 중요하지 않음. 개념을 벤치마크하기는 어려움
  - 증류를 통해 수학과 코딩 요소를 제거한 모델을 만들 수 있는지에 대한 질문이 제기됨

- R1이 주류 뉴스에 등장하면서 혼란과 경각심을 불러일으켰음. 중국이 미국을 위협하는 것이 아니라는 점을 설명하기 어려움
  - AI의 능력이 기하급수적으로 증가할 것이라는 결론에 대해, R1이 오픈 소스 모델로 o1 수준을 달성한 것이 유일한 데이터 포인트임. 이는 두 가지 매우 관련 없는 주제임

- AI가 이미 추론을 하고 있는지에 대한 질문이 제기됨
  - ARC-AGI는 인간에게는 간단하지만 AI에게는 매우 어려운 벤치마크임. 이를 해결하면 AI가 인간과 같은 일을 할 수 있다는 오해가 있음
  - ARC-AGI의 창시자인 François Chollet는 ARC-AGI-1이 얼마나 간단했는지, 이를 해결하는 것이 무엇을 의미하는지에 대해 설명함
  - ARC-AGI-1을 통과하면 시스템이 비제로 유동 지능을 보유하고 있음을 나타내지만, 시스템의 지능 수준이나 인간 지능과의 근접성을 나타내지는 않음

- AI의 능력이 곧 기하급수적으로 증가할 것이라는 결론은 근거가 부족함. 저자가 어떻게 이 결론에 도달했는지 알 수 있으면 좋겠음
