# DeepSeek-R1 모델 공개

> Clean Markdown view of GeekNews topic #18824. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18824](https://news.hada.io/topic?id=18824)
- GeekNews Markdown: [https://news.hada.io/topic/18824.md](https://news.hada.io/topic/18824.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-21T07:22:08+09:00
- Updated: 2025-01-21T07:22:08+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/DeepSeek-R1)
- Points: 8
- Comments: 5

## Summary

DeepSeek은 1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 공개했으며, DeepSeek-R1은 SFT 단계를 추가하여 성능을 개선하고 OpenAI-o1 수준의 성능을 달성했습니다. 또한, DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini를 능가하는 성능을 보이며, 다양한 크기의 distillation 모델들을 공개하여 작은 모델도 강력한 성능을 발휘할 수 있음을 시연했습니다. DeepSeek-R1 시리즈는 MIT 라이선스 하에 배포됩니다.

## Topic Body

- DeepSeek이 1세대 추론모델인 DeepSeek-R1-Zero와 DeepSeek-R1 모델을 공개   
- DeepSeek-R1-Zero는 대규모 강화학습(RL)만으로 학습되었고, 스스로 다양한 추론 능력을 습득했음  
- 그러나 반복/가독성 문제, 언어 혼용이 나타나, 이를 보완하고 성능을 높이기 위해 SFT 단계를 추가한 DeepSeek-R1을 제시함  
- DeepSeek-R1은 수학, 코드, 추론 작업에서 OpenAI-o1 수준의 성능을 달성함  
- 연구 커뮤니티 지원을 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 해당 모델에서 추론 패턴을 전이해 만든 distillation 모델들을 공개함  
- 특히 DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini를 능가하는 성능을 달성했음  
  
### 모델 요약  
  
- **Post-Training: 기본 모델에 대한 대규모 강화학습**  
  - DeepSeek-R1-Zero는 SFT 없이 RL만 적용된 최초 세대 모델임  
  - RL 과정을 통해 체인 오브 소트(Chain-of-thought) 탐색 능력, 자기 검증, 반성(reflection) 등 다양한 추론 패턴을 습득했음  
  - 이는 “SFT 없이도 대규모 모델이 RL만으로 강력한 추론 역량을 얻을 수 있다”는 점을 보여줌  
  - DeepSeek-R1은 이 과정을 기반으로, 중간에 SFT를 추가해 추론 능력과 일반적 언어 사용 능력을 더욱 강화했음  
  
- **Distillation: 소형 모델도 강력할 수 있음**  
  - 큰 모델이 학습한 추론 패턴을 작은 모델로도 옮길 수 있음을 시연했음  
  - DeepSeek-R1이 생성한 데이터를 활용해 Qwen, Llama 시리즈 등에 파인튜닝을 진행했고, 작은 밀집(dense) 모델도 우수한 성능을 보임  
  - 1.5B, 7B, 8B, 14B, 32B, 70B 등 다양한 크기의 distill 모델들을 공개함  
  
### 모델 다운로드  
  
#### DeepSeek-R1 Models  
- **DeepSeek-R1-Zero / DeepSeek-R1**  
  - 파라미터: 총 671B(실제 활성 파라미터는 37B)  
  - 컨텍스트 길이 128K  
  - HuggingFace에서 다운로드 가능하며, DeepSeek-V3-Base 모델을 기반으로 RL 방식으로 학습했음  
  
#### DeepSeek-R1-Distill Models  
- Qwen2.5 및 Llama3 시리즈 기반으로 distillation  
- 1.5B부터 70B까지 다양한 파라미터 크기 제공  
- DeepSeek-R1이 생성한 고품질 추론 데이터를 활용해 파인튜닝되었음  
- 일부 설정(tokenizer, config)을 수정했으므로 안내된 설정을 사용해야 함  
  
### 평가 결과  
  
#### DeepSeek-R1-Evaluation  
- DeepSeek-R1은 영어(MMLU, DROP 등), 코드(Codeforces, LiveCodeBench 등), 수학(AIME, MATH-500 등), 중국어(C-Eval 등)에서 높은 점수를 달성함  
- 특히 수학 부문 AIME, MATH-500 등에서 높은 pass@1 기록을 보여줌  
- OpenAI-o1-mini, Claude, GPT-4 등과 비교했을 때 여러 항목에서 경쟁력 있는 성능을 보임  
  
#### Distilled Model Evaluation  
- distillation 모델들도 수학(AIME, MATH 등), 코드(Codeforces 등) 벤치마크에서 뛰어난 결과를 보임  
- DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Llama-70B 등이 높은 pass@1과 코드 풀이 성능을 보여, 작은 모델의 활용 가능성을 시사함  
  
### 채팅 웹사이트 & API 플랫폼  
- [chat.deepseek.com](https://chat.deepseek.com)에서 DeepSeek-R1과 대화 체험 가능함  
- OpenAI 호환 API 플랫폼 [platform.deepseek.com](https://platform.deepseek.com)도 제공됨  
  
### 로컬 실행 방법  
  
#### DeepSeek-R1 Models  
- DeepSeek-V3 리포지토리를 참고해 128K 토큰 맥스 길이 설정 등 세부 사항을 확인 후 실행 가능함  
  
#### DeepSeek-R1-Distill Models  
- Qwen, Llama 모델과 동일한 방식으로 사용할 수 있음  
- 예: vLLM, SGLang 등을 이용해 빠르게 서빙할 수 있음  
- 온도(temperature) 0.5~0.7 정도로 설정하는 것을 권장함  
  
### 라이선스  
- DeepSeek-R1 시리즈는 MIT 라이선스 하에 배포됨  
- 단, Qwen 기반 모델은 Apache 2.0, Llama 기반 모델은 llama3.x 라이선스를 따르는 점에 유의해야 함  
- 상업적 용도 허가, 수정·파생 모델 생성 가능 등 유연한 라이선스 정책을 갖춤

## Comments


### Comment 33652

- Author: xguru
- Created: 2025-01-21T07:26:19+09:00
- Points: 1

[Deepseek - 중국 AI 경쟁을 선도하는 조용한 거인 ](https://news.hada.io/topic?id=18530)  
[Deepseek V3는 과적합 여부를 테스트하는 벤치마크에서 좋지 않은 성능을 보였음](https://news.hada.io/topic?id=18519)  
[DeepSeek v3에 대한 노트 - "정말로 GPT-4o나 3.5 Sonnet보다 좋은가?"](https://news.hada.io/topic?id=18560)

### Comment 33678

- Author: crawler
- Created: 2025-01-21T10:33:00+09:00
- Points: 1
- Parent comment: 33652
- Depth: 1

이렇게 댓글에 보기 좋게 링크를 달거나, 본문을 인용하는 분들도 있던데 혹시 댓글에 쓸 수 있는 문법들이 정리된 게 있을까요?   
며칠 보다 보니 점점 사이트가 좋아져서 댓글도 달고 싶고 그러네요

### Comment 33680

- Author: savvykang
- Created: 2025-01-21T11:21:42+09:00
- Points: 1
- Parent comment: 33678
- Depth: 2

https://news.hada.io/guidelines  
  
> Markdown 지원  
> 본문과 댓글에서 모두 지원됩니다.  
> 기본적으로 CommonMark 규약을 따릅니다.  
> 이미지는 지원되지 않습니다.

### Comment 33681

- Author: crawler
- Created: 2025-01-21T11:32:44+09:00
- Points: 1
- Parent comment: 33680
- Depth: 3

감사합니다 다른 댓글에 인용 써보려다 수정을 못 하니까 안전하게 안 썼는데 마크다운이 맞았군요  
유용하게 써보겠습니다 ㅎㅎ

### Comment 33651

- Author: neo
- Created: 2025-01-21T07:22:09+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42768072) 
- Llama 3의 양자화된 버전을 사용해 실험을 진행 중임. Ollama와 llm-ollama 플러그인을 사용해 모델을 실행하고 로그를 기록함. 모델을 로드한 후 uvx를 사용해 다양한 프롬프트를 테스트할 수 있음. 실험 결과를 블로그에 작성함.

- DeepSeek-R1-Zero는 반복, 가독성 문제, 언어 혼합 등의 문제를 겪음. 이를 해결하기 위해 DeepSeek-R1을 도입함. OpenAI o1과 QwQ-32B-Preview를 사용한 실험에서 QwQ는 반복 루프에 빠지는 경향이 있었음. DeepSeek-R1은 이러한 문제를 해결함. MIT 라이선스로 제공되어 더 많은 사람들이 평가할 수 있게 됨.

- "strawberry"의 'r' 개수를 묻는 질문에서 모델이 스스로와 논쟁하며 정답을 찾는 과정을 보여줌. 이 과정이 재미있다고 언급함.

- ChatGPT o1, DeepSeek의 DeepThink, Gemini 2.0 Flash Thinking Experimental을 비교한 결과, ChatGPT o1이 가장 우수했으며 DeepSeek이 가장 약했음. DeepSeek-R1을 테스트한 결과, 이전보다 개선된 성능을 보였음. 개인적인 사용 사례에서는 LLM이 더 유용하다고 느꼈음.

- Llama 8B 모델이 Claude 3.5 Sonnet보다 강력하다는 벤치마크 결과가 나옴. 작은 모델이 강력한 성능을 보이는 것에 대해 놀라움을 표함.

- 1년 전에 설립된 작은 회사가 OpenAI와 경쟁할 수 있는 점이 놀랍다고 언급함. 중국이 AI 분야에서 미국을 앞서고 있으며, 모델을 오픈 소스로 제공하는 점에서 진정한 "Open AI" 회사라고 평가함.

- DS3에 대한 초기 기대가 있었으나, 기능 호출 문제, 응답 품질 저하, 지원 부족 등의 문제를 발견함. 그러나 이로 인해 다른 API의 트래픽이 줄어들어 지연 시간이 개선됨.

- 7b와 8b 버전의 차이에 대해 혼란스러움을 표함. Ollama에 Qwen 7B 버전을 업로드했음을 알림.