# DeepScaleR: RL을 활용한 1.5B 모델로 O1-Preview 능가하기

> Clean Markdown view of GeekNews topic #19190. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19190](https://news.hada.io/topic?id=19190)
- GeekNews Markdown: [https://news.hada.io/topic/19190.md](https://news.hada.io/topic/19190.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-12T13:34:15+09:00
- Updated: 2025-02-12T13:34:15+09:00
- Original source: [pretty-radio-b75.notion.site](https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2)
- Points: 5
- Comments: 1

## Summary

DeepScaleR-1.5B-Preview는 Deepseek-R1-Distilled-Qwen-1.5B 모델을 강화 학습으로 미세 조정하여 AIME2024에서 Pass@1 정확도 43.1%를 달성하며 OpenAI의 `o1-preview` 성능을 능가했습니다. 이 모델은 3,800 A100 GPU 시간으로 훈련되어 기존의 70,000 A100 GPU 시간 대비 18.42배 효율적인 RL 스케일링을 보여주었으며, "Iterative Lengthening" 기법을 통해 8K, 16K, 24K 컨텍스트로 단계적으로 확장하여 성능을 극대화했습니다. DeepScaleR은 여러 수학 벤치마크에서 높은 성능을 기록하며, 저비용으로도 고성능 RL 모델 구축이 가능함을 증명하였습니다.

## Topic Body

- DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B 모델을 강화 학습(RL)으로 미세 조정한 모델  
- AIME2024 Pass@1 정확도 43.1% 달성 (기본 모델 대비 +14.3% 향상),  
  → OpenAI `o1-preview` 성능 능가!  
- 3,800 A100 GPU 시간($4500)으로 훈련 → 70,000 A100 GPU 시간 대비 18.42배 효율적인 RL 스케일링  
- 데이터셋, 코드, 훈련 로그 오픈소스 공개 → 누구나 RL을 활용한 지능 확장을 실험 가능  
  
#### RL을 활용한 소형 모델 강화  
  
- Deepseek-R1은 OpenAI `o1`과 견줄 수 있는 오픈소스 모델이지만, 정확한 훈련 과정은 비공개  
- RL을 활용하여 적은 계산량으로 강력한 추론 모델을 개발하는 방법을 연구  
- 기존 RL의 가장 큰 한계는 고비용:  
  → `Deepseek-R1`의 실험을 재현하려면 최소 70,000 A100 GPU 시간 필요  
- 해결책:  
  - 고성능 지식 증류(distillation) 모델 활용  
  - RL을 점진적으로 확장하는 "Iterative Lengthening" 기법 도입 → 계산량 3,800 A100 GPU 시간으로 절감  
  
#### 데이터셋 구축  
  
- AIME(1984-2023) + AMC(2023 이전) + Omni-MATH + Still 데이터셋 사용  
- 데이터 정제 과정:  
  1. 정답 추출: `gemini-1.5-pro-002`를 활용해 공식 해설에서 정답 추출  
  2. 중복 제거: `sentence-transformers/all-MiniLM-L6-v2` 임베딩 기반으로 유사 문제 제거  
  3. 채점 불가능 문제 필터링: `sympy`를 활용한 자동 평가가 어려운 문제 제거  
  
- 최종적으로 40,000개 문제-정답 쌍 확보, 향후 데이터 확장 예정  
  
#### 보상 함수(Reward Function)  
  
- Deepseek-R1과 동일하게 "Outcome Reward Model (ORM)" 적용:  
  - `1점`: 올바른 형식의 정답 (`sympy` 검증 통과)  
  - `0점`: 잘못된 정답, 형식 오류 (`&lt;think&gt;...&lt;/think&gt;` 누락 등)  
  
- "과정 기반 보상(Process Reward Model, PRM)"을 사용하지 않는 이유:  
  - 보상 해킹(reward hacking) 방지 → 모델이 형식만 따라가려는 부작용 방지  
  
#### "Iterative Lengthening": RL 학습을 단계적으로 확장하는 기법  
  
##### Step 1: 8K 컨텍스트로 RL 학습 시작  
- 이유:  
  - 잘못된 답변은 평균 20,346 토큰, 정답은 6,395 토큰 → 긴 응답이 오답 가능성 증가  
  - 초기부터 긴 컨텍스트로 학습하면 비효율적 → 8K로 먼저 최적화  
- 결과:  
  - AIME Pass@1 28.9% → 33.9% (+5%) 향상  
  - 불필요한 토큰 수 감소 → 평균 응답 길이 10,484 토큰 감소  
  
##### Step 2: 16K 컨텍스트로 확장  
- 훈련 1,000스텝 이후, 모델이 더 길게 사고(추론)하려는 경향을 보임  
- 하지만 8K 한계로 인해 학습 효과가 제한됨 → 16K로 확장  
- 장점:  
  - 처음부터 16K로 훈련하는 것보다 2배 이상 빠름 (평균 응답 길이 3,000 → 9,000 토큰 방지)  
  - AIME2024 정확도 38% 도달  
  
##### Step 3: "24K Magic" - 최종 성능 향상  
- 16K에서 성능이 정체 → 24K 컨텍스트로 마지막 확장  
- 결과적으로 AIME2024 Pass@1 정확도 43.1% 도달, OpenAI `o1-preview` 능가!  
  
#### 최종 평가 결과  
  
- DeepScaleR 모델은 AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench 등 여러 수학 벤치마크에서 평가됨  
- AIME2024 기준, DeepScaleR-1.5B-Preview의 정확도는 43.1%로, OpenAI `o1-preview` 모델보다 우수함  
- MATH 500, AMC 2023 등에서도 1.5B 모델임에도 불구하고 7B 모델과 동등하거나 더 높은 성능을 기록  
- 이전 연구(RL 기반 rStar, PRIME, SimpleRL)와 비교해도 최고의 효율성을 보여줌  
  
#### 핵심 요약 (Key Takeaways)  
  
1. 소형 모델에서도 RL 확장이 가능함  
   - 기존에는 RL이 대형 모델에만 효과적이라는 인식이 있었음  
   - 하지만 고품질 데이터로 미세 조정된 작은 모델도 RL을 통해 강력한 추론 능력을 학습 가능  
   - DeepScaleR는 28.9% → 43.1% (AIME 정확도) 향상  
  
2. "Iterative Lengthening" 기법으로 효과적인 길이 확장 가능  
   - 기존 연구에서는 16K 이상 컨텍스트에서 성능 향상이 미미함을 보고  
   - 8K → 16K → 24K 점진적 확장을 통해 성능 최대화  
  
#### 결론: RL 스케일링의 대중화  
  
- DeepScaleR-1.5B-Preview는 O1-preview를 능가하는 최초의 오픈소스 RL 모델  
- 3,800 A100 GPU 시간($4500)만으로도 고성능 모델 구축 가능 → 저비용 RL 연구의 가능성 증명  
- 오픈소스 커뮤니티와 함께 RL 기반 추론 모델의 발전을 지속할 예정  
  
🔗 오픈소스 자료:  
- [DeepScaleR 모델](https://github.com/deepscaler)  
- [훈련 로그 & 데이터셋](https://www.notion.so/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2?pvs=21)

## Comments


### Comment 34446

- Author: neo
- Created: 2025-02-12T13:34:16+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43017599)   
* 이 모델은 특정 문제를 해결하기 위해 벤치마크에 맞춰 조정되었으며, 다른 작업에서는 O1-Preview에 비해 성능이 떨어짐. 특별히 이 문제를 해결하고 싶지 않다면 주목할 가치가 없음. 그러나 여전히 인상적임  
* 작은 강화 모델이 승리할 것임. 우리 문명, 회사, 팀을 보라: 많은 전문화된 사람들이 있고, 단일한 비대한 천재는 아님  
* 현재 벤치마크에 대한 과도한 강조가 문제임. 이상적으로는 사용자 KPI와 비교하여 벤치마크를 해야 함  
* 중요한 것은 특정 작업에서 강력한 성능을 발휘할 수 있는 1B 모델을 훈련시키는 간단하고 신뢰할 수 있는 공식임. 이전에는 이런 것이 없었음. 엣지 디바이스가 훨씬 더 스마트해질 것임  
* 나는 매우 순진하지만, 이 벤치마크를 신뢰하는 사람이 있는가? 이들이 의미가 있는가? 너무 쉽게 조작할 수 있는 것 같고, 모델들이 서로 어떻게 비교되는지를 정확히 알 수 있는 방법처럼 느껴지지 않음. 벤치마크와 유사하지만 모델이 본 적 없는 문제를 도입하면 성능이 상당히 저하되는 것 같음  
* 새로운 "추론" 모델을 테스트할 수 있는 좋은 간단한 프롬프트가 있는가? "strawberry 단어에서 R 문자를 세어라"는 조금 지루함  
* 나는 Ollama와 가장 작은 양자화된 GGUF 버전(769MB)을 사용하여 로컬에서 이것을 시도하고 있음  
* 여기서 얻은 답변: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 를 확인한 후 올바른 답을 얻었음. 그러나 시작할 때 중요한 오류를 범했음  
* CoT 모델이 외부 함수를 호출할 수 있는가? 계산기에 접근할 수 있다면 어떨까?  
* 이런 방식으로 검열되지 않은 모델을 얻을 수 있다면 정말 좋을 것임  
* 사실 꽤 어리석음. ASCII 시퀀스를 해독하라고 했더니 말도 안 되는 답을 줌. phi-4 Q4를 시도했더니 맞았음. 9GB 대 2GB(추론). 2GB에 충분한 정보를 담을 수 없어서 일반적인 수학 문제를 해결하거나 훈련 데이터에 무엇이 있었는지 아는 것 외에는 별로 쓸모가 없을 것 같음  
* 대학에 있을 때 이것은 솔직히 과적합이라고 불렸음. 평가 세트 외에서는 잘 작동하지 않는 것 같음