# 일러스트레이티드 DeepSeek-R1

> Clean Markdown view of GeekNews topic #18952. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18952](https://news.hada.io/topic?id=18952)
- GeekNews Markdown: [https://news.hada.io/topic/18952.md](https://news.hada.io/topic/18952.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-28T22:33:13+09:00
- Updated: 2025-01-28T22:33:13+09:00
- Original source: [newsletter.languagemodels.co](https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1)
- Points: 2
- Comments: 0

## Topic Body

##### The Illustrated DeepSeek-R1

- **DeepSeek-R1 소개**
  - DeepSeek-R1은 AI 발전의 중요한 이정표로, ML 연구개발 커뮤니티에 큰 영향을 미침.
  - 이 모델은 오픈 웨이트 모델로, 작은 크기의 디스틸 버전도 제공함.
  - OpenAI O1과 같은 추론 모델을 재현하는 훈련 방법을 공유하고 반영함.

- **LLM 훈련 요약**
  - DeepSeek-R1은 기존 LLM과 유사하게 한 번에 하나의 토큰을 생성하며, 수학 및 추론 문제 해결에 뛰어남.
  - 고품질 LLM을 만드는 일반적인 과정은 다음과 같음:
    1. 대량의 웹 데이터를 사용하여 다음 단어를 예측하는 언어 모델링 단계.
    2. 모델을 지시를 따르고 질문에 답변할 수 있도록 만드는 감독된 미세 조정 단계.
    3. 인간의 선호에 맞춰 모델의 행동을 다듬는 선호 조정 단계.

- **DeepSeek-R1 훈련 과정**
  - DeepSeek-R1은 DeepSeek-V3 모델의 베이스 모델을 사용하며, SFT 및 선호 조정 단계를 거침.
  - R1 생성 과정에서 주목할 세 가지 특별한 점:
    1. **긴 추론 체인 SFT 데이터**: 60만 개의 긴 추론 예제가 포함됨.
    2. **임시 고품질 추론 LLM**: 추론에 특화된 모델로, 적은 양의 라벨 데이터와 대규모 강화 학습을 통해 생성됨.
    3. **대규모 강화 학습을 통한 추론 모델 생성**: R1-Zero라는 모델을 통해 추론 예제를 생성하고, 이를 통해 일반 모델을 훈련함.

- **R1-Zero의 특성**
  - R1-Zero는 라벨링된 SFT 훈련 세트 없이도 추론 작업에서 뛰어남.
  - 현대의 베이스 모델이 일정 수준의 품질과 능력을 넘어서고 있음을 시사함.
  - 추론 문제는 자동으로 검증되거나 라벨링될 수 있음.

- **SFT 추론 데이터 생성**
  - 임시 추론 모델은 몇 천 개의 추론 문제 예제를 사용하여 SFT 훈련 단계를 거침.
  - 이 데이터는 R1-Zero의 출력물을 읽기 쉽게 가공하여 생성됨.

- **일반 RL 훈련 단계**
  - R1은 추론 및 비추론 작업 모두에서 뛰어남.
  - 유용성과 안전 보상 모델을 활용하여 다양한 응용 프로그램에 적용됨.

- **아키텍처**
  - DeepSeek-R1은 61개의 Transformer 디코더 블록으로 구성됨.
  - 처음 세 개는 밀집 레이어, 나머지는 전문가 혼합 레이어로 구성됨.

- **결론**
  - DeepSeek-R1 모델의 주요 개념을 이해하는 데 도움이 됨.
  - 추가 정보는 Hands-On Large Language Models 책이나 GitHub에서 확인 가능.

## Comments


_No public comments on this page._