DeepScaleR: RL을 활용한 1.5B 모델로 O1-Preview 능가하기

(pretty-radio-b75.notion.site)

5P by GN⁺ 10달전 | ★ favorite | 댓글 1개

DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B 모델을 강화 학습(RL)으로 미세 조정한 모델
AIME2024 Pass@1 정확도 43.1% 달성 (기본 모델 대비 +14.3% 향상),
→ OpenAI o1-preview 성능 능가!
3,800 A100 GPU 시간($4500)으로 훈련 → 70,000 A100 GPU 시간 대비 18.42배 효율적인 RL 스케일링
데이터셋, 코드, 훈련 로그 오픈소스 공개 → 누구나 RL을 활용한 지능 확장을 실험 가능

RL을 활용한 소형 모델 강화

Deepseek-R1은 OpenAI o1과 견줄 수 있는 오픈소스 모델이지만, 정확한 훈련 과정은 비공개
RL을 활용하여 적은 계산량으로 강력한 추론 모델을 개발하는 방법을 연구
기존 RL의 가장 큰 한계는 고비용:
→ Deepseek-R1의 실험을 재현하려면 최소 70,000 A100 GPU 시간 필요
해결책:
- 고성능 지식 증류(distillation) 모델 활용
- RL을 점진적으로 확장하는 "Iterative Lengthening" 기법 도입 → 계산량 3,800 A100 GPU 시간으로 절감

데이터셋 구축

AIME(1984-2023) + AMC(2023 이전) + Omni-MATH + Still 데이터셋 사용
데이터 정제 과정:
1. 정답 추출: gemini-1.5-pro-002를 활용해 공식 해설에서 정답 추출
2. 중복 제거: sentence-transformers/all-MiniLM-L6-v2 임베딩 기반으로 유사 문제 제거
3. 채점 불가능 문제 필터링: sympy를 활용한 자동 평가가 어려운 문제 제거
최종적으로 40,000개 문제-정답 쌍 확보, 향후 데이터 확장 예정

보상 함수(Reward Function)

Deepseek-R1과 동일하게 "Outcome Reward Model (ORM)" 적용:
- 1점: 올바른 형식의 정답 (sympy 검증 통과)
- 0점: 잘못된 정답, 형식 오류 (<think>...</think> 누락 등)
"과정 기반 보상(Process Reward Model, PRM)"을 사용하지 않는 이유:
- 보상 해킹(reward hacking) 방지 → 모델이 형식만 따라가려는 부작용 방지

"Iterative Lengthening": RL 학습을 단계적으로 확장하는 기법

Step 1: 8K 컨텍스트로 RL 학습 시작

이유:
- 잘못된 답변은 평균 20,346 토큰, 정답은 6,395 토큰 → 긴 응답이 오답 가능성 증가
- 초기부터 긴 컨텍스트로 학습하면 비효율적 → 8K로 먼저 최적화
결과:
- AIME Pass@1 28.9% → 33.9% (+5%) 향상
- 불필요한 토큰 수 감소 → 평균 응답 길이 10,484 토큰 감소

Step 2: 16K 컨텍스트로 확장

훈련 1,000스텝 이후, 모델이 더 길게 사고(추론)하려는 경향을 보임
하지만 8K 한계로 인해 학습 효과가 제한됨 → 16K로 확장
장점:
- 처음부터 16K로 훈련하는 것보다 2배 이상 빠름 (평균 응답 길이 3,000 → 9,000 토큰 방지)
- AIME2024 정확도 38% 도달

Step 3: "24K Magic" - 최종 성능 향상

16K에서 성능이 정체 → 24K 컨텍스트로 마지막 확장
결과적으로 AIME2024 Pass@1 정확도 43.1% 도달, OpenAI o1-preview 능가!

최종 평가 결과

DeepScaleR 모델은 AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench 등 여러 수학 벤치마크에서 평가됨
AIME2024 기준, DeepScaleR-1.5B-Preview의 정확도는 43.1%로, OpenAI o1-preview 모델보다 우수함
MATH 500, AMC 2023 등에서도 1.5B 모델임에도 불구하고 7B 모델과 동등하거나 더 높은 성능을 기록
이전 연구(RL 기반 rStar, PRIME, SimpleRL)와 비교해도 최고의 효율성을 보여줌

핵심 요약 (Key Takeaways)

소형 모델에서도 RL 확장이 가능함
- 기존에는 RL이 대형 모델에만 효과적이라는 인식이 있었음
- 하지만 고품질 데이터로 미세 조정된 작은 모델도 RL을 통해 강력한 추론 능력을 학습 가능
- DeepScaleR는 28.9% → 43.1% (AIME 정확도) 향상
"Iterative Lengthening" 기법으로 효과적인 길이 확장 가능
- 기존 연구에서는 16K 이상 컨텍스트에서 성능 향상이 미미함을 보고
- 8K → 16K → 24K 점진적 확장을 통해 성능 최대화

결론: RL 스케일링의 대중화

DeepScaleR-1.5B-Preview는 O1-preview를 능가하는 최초의 오픈소스 RL 모델
3,800 A100 GPU 시간($4500)만으로도 고성능 모델 구축 가능 → 저비용 RL 연구의 가능성 증명
오픈소스 커뮤니티와 함께 RL 기반 추론 모델의 발전을 지속할 예정

🔗 오픈소스 자료:

▲

GN⁺ 10달전 [-]

Hacker News 의견

이 모델은 특정 문제를 해결하기 위해 벤치마크에 맞춰 조정되었으며, 다른 작업에서는 O1-Preview에 비해 성능이 떨어짐. 특별히 이 문제를 해결하고 싶지 않다면 주목할 가치가 없음. 그러나 여전히 인상적임
작은 강화 모델이 승리할 것임. 우리 문명, 회사, 팀을 보라: 많은 전문화된 사람들이 있고, 단일한 비대한 천재는 아님
현재 벤치마크에 대한 과도한 강조가 문제임. 이상적으로는 사용자 KPI와 비교하여 벤치마크를 해야 함
중요한 것은 특정 작업에서 강력한 성능을 발휘할 수 있는 1B 모델을 훈련시키는 간단하고 신뢰할 수 있는 공식임. 이전에는 이런 것이 없었음. 엣지 디바이스가 훨씬 더 스마트해질 것임
나는 매우 순진하지만, 이 벤치마크를 신뢰하는 사람이 있는가? 이들이 의미가 있는가? 너무 쉽게 조작할 수 있는 것 같고, 모델들이 서로 어떻게 비교되는지를 정확히 알 수 있는 방법처럼 느껴지지 않음. 벤치마크와 유사하지만 모델이 본 적 없는 문제를 도입하면 성능이 상당히 저하되는 것 같음
새로운 "추론" 모델을 테스트할 수 있는 좋은 간단한 프롬프트가 있는가? "strawberry 단어에서 R 문자를 세어라"는 조금 지루함
나는 Ollama와 가장 작은 양자화된 GGUF 버전(769MB)을 사용하여 로컬에서 이것을 시도하고 있음
여기서 얻은 답변: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 를 확인한 후 올바른 답을 얻었음. 그러나 시작할 때 중요한 오류를 범했음
CoT 모델이 외부 함수를 호출할 수 있는가? 계산기에 접근할 수 있다면 어떨까?
이런 방식으로 검열되지 않은 모델을 얻을 수 있다면 정말 좋을 것임
사실 꽤 어리석음. ASCII 시퀀스를 해독하라고 했더니 말도 안 되는 답을 줌. phi-4 Q4를 시도했더니 맞았음. 9GB 대 2GB(추론). 2GB에 충분한 정보를 담을 수 없어서 일반적인 수학 문제를 해결하거나 훈련 데이터에 무엇이 있었는지 아는 것 외에는 별로 쓸모가 없을 것 같음
대학에 있을 때 이것은 솔직히 과적합이라고 불렸음. 평가 세트 외에서는 잘 작동하지 않는 것 같음

답변달기