GN⁺: DeepSeek-R1 모델 공개
(github.com/deepseek-ai)- DeepSeek이 1세대 추론모델인 DeepSeek-R1-Zero와 DeepSeek-R1 모델을 공개
- DeepSeek-R1-Zero는 대규모 강화학습(RL)만으로 학습되었고, 스스로 다양한 추론 능력을 습득했음
- 그러나 반복/가독성 문제, 언어 혼용이 나타나, 이를 보완하고 성능을 높이기 위해 SFT 단계를 추가한 DeepSeek-R1을 제시함
- DeepSeek-R1은 수학, 코드, 추론 작업에서 OpenAI-o1 수준의 성능을 달성함
- 연구 커뮤니티 지원을 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 해당 모델에서 추론 패턴을 전이해 만든 distillation 모델들을 공개함
- 특히 DeepSeek-R1-Distill-Qwen-32B 모델은 OpenAI-o1-mini를 능가하는 성능을 달성했음
모델 요약
-
Post-Training: 기본 모델에 대한 대규모 강화학습
- DeepSeek-R1-Zero는 SFT 없이 RL만 적용된 최초 세대 모델임
- RL 과정을 통해 체인 오브 소트(Chain-of-thought) 탐색 능력, 자기 검증, 반성(reflection) 등 다양한 추론 패턴을 습득했음
- 이는 “SFT 없이도 대규모 모델이 RL만으로 강력한 추론 역량을 얻을 수 있다”는 점을 보여줌
- DeepSeek-R1은 이 과정을 기반으로, 중간에 SFT를 추가해 추론 능력과 일반적 언어 사용 능력을 더욱 강화했음
-
Distillation: 소형 모델도 강력할 수 있음
- 큰 모델이 학습한 추론 패턴을 작은 모델로도 옮길 수 있음을 시연했음
- DeepSeek-R1이 생성한 데이터를 활용해 Qwen, Llama 시리즈 등에 파인튜닝을 진행했고, 작은 밀집(dense) 모델도 우수한 성능을 보임
- 1.5B, 7B, 8B, 14B, 32B, 70B 등 다양한 크기의 distill 모델들을 공개함
모델 다운로드
DeepSeek-R1 Models
-
DeepSeek-R1-Zero / DeepSeek-R1
- 파라미터: 총 671B(실제 활성 파라미터는 37B)
- 컨텍스트 길이 128K
- HuggingFace에서 다운로드 가능하며, DeepSeek-V3-Base 모델을 기반으로 RL 방식으로 학습했음
DeepSeek-R1-Distill Models
- Qwen2.5 및 Llama3 시리즈 기반으로 distillation
- 1.5B부터 70B까지 다양한 파라미터 크기 제공
- DeepSeek-R1이 생성한 고품질 추론 데이터를 활용해 파인튜닝되었음
- 일부 설정(tokenizer, config)을 수정했으므로 안내된 설정을 사용해야 함
평가 결과
DeepSeek-R1-Evaluation
- DeepSeek-R1은 영어(MMLU, DROP 등), 코드(Codeforces, LiveCodeBench 등), 수학(AIME, MATH-500 등), 중국어(C-Eval 등)에서 높은 점수를 달성함
- 특히 수학 부문 AIME, MATH-500 등에서 높은 pass@1 기록을 보여줌
- OpenAI-o1-mini, Claude, GPT-4 등과 비교했을 때 여러 항목에서 경쟁력 있는 성능을 보임
Distilled Model Evaluation
- distillation 모델들도 수학(AIME, MATH 등), 코드(Codeforces 등) 벤치마크에서 뛰어난 결과를 보임
- DeepSeek-R1-Distill-Qwen-32B, DeepSeek-R1-Distill-Llama-70B 등이 높은 pass@1과 코드 풀이 성능을 보여, 작은 모델의 활용 가능성을 시사함
채팅 웹사이트 & API 플랫폼
- chat.deepseek.com에서 DeepSeek-R1과 대화 체험 가능함
- OpenAI 호환 API 플랫폼 platform.deepseek.com도 제공됨
로컬 실행 방법
DeepSeek-R1 Models
- DeepSeek-V3 리포지토리를 참고해 128K 토큰 맥스 길이 설정 등 세부 사항을 확인 후 실행 가능함
DeepSeek-R1-Distill Models
- Qwen, Llama 모델과 동일한 방식으로 사용할 수 있음
- 예: vLLM, SGLang 등을 이용해 빠르게 서빙할 수 있음
- 온도(temperature) 0.5~0.7 정도로 설정하는 것을 권장함
라이선스
- DeepSeek-R1 시리즈는 MIT 라이선스 하에 배포됨
- 단, Qwen 기반 모델은 Apache 2.0, Llama 기반 모델은 llama3.x 라이선스를 따르는 점에 유의해야 함
- 상업적 용도 허가, 수정·파생 모델 생성 가능 등 유연한 라이선스 정책을 갖춤
이렇게 댓글에 보기 좋게 링크를 달거나, 본문을 인용하는 분들도 있던데 혹시 댓글에 쓸 수 있는 문법들이 정리된 게 있을까요?
며칠 보다 보니 점점 사이트가 좋아져서 댓글도 달고 싶고 그러네요
https://news.hada.io/guidelines
Markdown 지원
본문과 댓글에서 모두 지원됩니다.
기본적으로 CommonMark 규약을 따릅니다.
이미지는 지원되지 않습니다.
Hacker News 의견
-
Llama 3의 양자화된 버전을 사용해 실험을 진행 중임. Ollama와 llm-ollama 플러그인을 사용해 모델을 실행하고 로그를 기록함. 모델을 로드한 후 uvx를 사용해 다양한 프롬프트를 테스트할 수 있음. 실험 결과를 블로그에 작성함.
-
DeepSeek-R1-Zero는 반복, 가독성 문제, 언어 혼합 등의 문제를 겪음. 이를 해결하기 위해 DeepSeek-R1을 도입함. OpenAI o1과 QwQ-32B-Preview를 사용한 실험에서 QwQ는 반복 루프에 빠지는 경향이 있었음. DeepSeek-R1은 이러한 문제를 해결함. MIT 라이선스로 제공되어 더 많은 사람들이 평가할 수 있게 됨.
-
"strawberry"의 'r' 개수를 묻는 질문에서 모델이 스스로와 논쟁하며 정답을 찾는 과정을 보여줌. 이 과정이 재미있다고 언급함.
-
ChatGPT o1, DeepSeek의 DeepThink, Gemini 2.0 Flash Thinking Experimental을 비교한 결과, ChatGPT o1이 가장 우수했으며 DeepSeek이 가장 약했음. DeepSeek-R1을 테스트한 결과, 이전보다 개선된 성능을 보였음. 개인적인 사용 사례에서는 LLM이 더 유용하다고 느꼈음.
-
Llama 8B 모델이 Claude 3.5 Sonnet보다 강력하다는 벤치마크 결과가 나옴. 작은 모델이 강력한 성능을 보이는 것에 대해 놀라움을 표함.
-
1년 전에 설립된 작은 회사가 OpenAI와 경쟁할 수 있는 점이 놀랍다고 언급함. 중국이 AI 분야에서 미국을 앞서고 있으며, 모델을 오픈 소스로 제공하는 점에서 진정한 "Open AI" 회사라고 평가함.
-
DS3에 대한 초기 기대가 있었으나, 기능 호출 문제, 응답 품질 저하, 지원 부족 등의 문제를 발견함. 그러나 이로 인해 다른 API의 트래픽이 줄어들어 지연 시간이 개선됨.
-
7b와 8b 버전의 차이에 대해 혼란스러움을 표함. Ollama에 Qwen 7B 버전을 업로드했음을 알림.