# Open-R1: DeepSeek-R1의 완전한 오픈소스 재현 프로젝트

> Clean Markdown view of GeekNews topic #18960. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18960](https://news.hada.io/topic?id=18960)
- GeekNews Markdown: [https://news.hada.io/topic/18960.md](https://news.hada.io/topic/18960.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-29T09:56:43+09:00
- Updated: 2025-01-29T09:56:43+09:00
- Original source: [huggingface.co](https://huggingface.co/blog/open-r1)
- Points: 16
- Comments: 0

## Summary

DeepSeek-R1은 OpenAI의 o1 모델과 유사하거나 더 나은 성능을 보이며, 순수 강화 학습을 통해 인간의 감독 없이 추론하는 방법을 학습한 모델입니다. Open-R1 프로젝트는 DeepSeek-R1의 데이터와 훈련 파이프라인을 재구성하여 강화 학습이 추론을 어떻게 향상시키는지에 대한 투명성을 제공하는 것을 목표로 합니다. 이 프로젝트는 R1-Distill 모델 재현, R1-Zero의 순수 RL 학습 파이프라인 복제, 단계별 학습 과정 구축 등을 포함한 단계별 계획을 가지고 있으며, 커뮤니티와의 협력을 통해 통찰을 공유하는 데 중점을 둡니다.

## Topic Body

### DeepSeek-R1이란 무엇인가?  
  
- OpenAI의 o1 모델은 LLMs가 추론 작업을 더 잘 수행할 수 있도록 더 많은 계산을 사용하여 훈련되었음.  
- DeepSeek-R1은 OpenAI의 o1 모델과 비슷하거나 더 나은 성능을 보이며, 순수 강화 학습(RL)을 통해 인간의 감독 없이 추론하는 방법을 학습함.  
- DeepSeek-R1의 공개로 데이터 수집, 모델 훈련, 확장 법칙에 대한 여러 질문이 제기됨.  
  
### 그들은 어떻게 했는가?  
  
- DeepSeek-R1은 DeepSeek-V3를 기반으로 구축된 추론 모델이며, 671B Mixture of Experts (MoE) 모델임.  
- DeepSeek-R1-Zero는 강화 학습만을 사용하여 훈련되었으며, Group Relative Policy Optimization (GRPO)을 사용하여 효율성을 높임.  
- DeepSeek-R1은 초기 단계에서 소규모 예제를 사용하여 명확성과 가독성을 개선한 후, 강화 학습과 정제 단계를 거쳐 일관된 답변을 생성함.  
  
### Open-R1: 누락된 조각들  
  
- DeepSeek-R1의 공개는 커뮤니티에 큰 도움이 되었으나, 데이터셋과 코드가 공개되지 않음.  
- Open-R1 프로젝트는 DeepSeek-R1의 데이터와 훈련 파이프라인을 재구성하고, 강화 학습이 추론을 어떻게 향상시키는지 투명성을 제공하는 것을 목표로 함.  
  
### Open-R1의 단계별 계획  
1. **R1-Distill 모델 재현**: DeepSeek-R1에서 고품질 추론 데이터셋 추출 및 증류 학습  
2. **R1-Zero의 순수 RL 학습 파이프라인 복제**: 대규모 수학, 논리, 코드 데이터셋 구축  
3. **기반 모델 → SFT → RL 단계별 학습 과정 구축**  
  
### 기여 방법  
  
- Open-R1 프로젝트에 기여하는 방법은 코드 기여, Hugging Face에서의 토론 참여 등 다양함.  
- 이 프로젝트는 결과를 복제하는 것뿐만 아니라 커뮤니티와 통찰을 공유하는 데 중점을 둠.

## Comments


_No public comments on this page._