DeepSeek-R1이란 무엇인가?
- OpenAI의 o1 모델은 LLMs가 추론 작업을 더 잘 수행할 수 있도록 더 많은 계산을 사용하여 훈련되었음.
- DeepSeek-R1은 OpenAI의 o1 모델과 비슷하거나 더 나은 성능을 보이며, 순수 강화 학습(RL)을 통해 인간의 감독 없이 추론하는 방법을 학습함.
- DeepSeek-R1의 공개로 데이터 수집, 모델 훈련, 확장 법칙에 대한 여러 질문이 제기됨.
그들은 어떻게 했는가?
- DeepSeek-R1은 DeepSeek-V3를 기반으로 구축된 추론 모델이며, 671B Mixture of Experts (MoE) 모델임.
- DeepSeek-R1-Zero는 강화 학습만을 사용하여 훈련되었으며, Group Relative Policy Optimization (GRPO)을 사용하여 효율성을 높임.
- DeepSeek-R1은 초기 단계에서 소규모 예제를 사용하여 명확성과 가독성을 개선한 후, 강화 학습과 정제 단계를 거쳐 일관된 답변을 생성함.
Open-R1: 누락된 조각들
- DeepSeek-R1의 공개는 커뮤니티에 큰 도움이 되었으나, 데이터셋과 코드가 공개되지 않음.
- Open-R1 프로젝트는 DeepSeek-R1의 데이터와 훈련 파이프라인을 재구성하고, 강화 학습이 추론을 어떻게 향상시키는지 투명성을 제공하는 것을 목표로 함.
Open-R1의 단계별 계획
-
R1-Distill 모델 재현: DeepSeek-R1에서 고품질 추론 데이터셋 추출 및 증류 학습
-
R1-Zero의 순수 RL 학습 파이프라인 복제: 대규모 수학, 논리, 코드 데이터셋 구축
-
기반 모델 → SFT → RL 단계별 학습 과정 구축
기여 방법
- Open-R1 프로젝트에 기여하는 방법은 코드 기여, Hugging Face에서의 토론 참여 등 다양함.
- 이 프로젝트는 결과를 복제하는 것뿐만 아니라 커뮤니티와 통찰을 공유하는 데 중점을 둠.