GN⁺: 일러스트레이티드 DeepSeek-R1
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
DeepSeek-R1 소개
- DeepSeek-R1은 AI 발전의 중요한 이정표로, ML 연구개발 커뮤니티에 큰 영향을 미침.
- 이 모델은 오픈 웨이트 모델로, 작은 크기의 디스틸 버전도 제공함.
- OpenAI O1과 같은 추론 모델을 재현하는 훈련 방법을 공유하고 반영함.
-
LLM 훈련 요약
- DeepSeek-R1은 기존 LLM과 유사하게 한 번에 하나의 토큰을 생성하며, 수학 및 추론 문제 해결에 뛰어남.
- 고품질 LLM을 만드는 일반적인 과정은 다음과 같음:
- 대량의 웹 데이터를 사용하여 다음 단어를 예측하는 언어 모델링 단계.
- 모델을 지시를 따르고 질문에 답변할 수 있도록 만드는 감독된 미세 조정 단계.
- 인간의 선호에 맞춰 모델의 행동을 다듬는 선호 조정 단계.
-
DeepSeek-R1 훈련 과정
- DeepSeek-R1은 DeepSeek-V3 모델의 베이스 모델을 사용하며, SFT 및 선호 조정 단계를 거침.
- R1 생성 과정에서 주목할 세 가지 특별한 점:
- 긴 추론 체인 SFT 데이터: 60만 개의 긴 추론 예제가 포함됨.
- 임시 고품질 추론 LLM: 추론에 특화된 모델로, 적은 양의 라벨 데이터와 대규모 강화 학습을 통해 생성됨.
- 대규모 강화 학습을 통한 추론 모델 생성: R1-Zero라는 모델을 통해 추론 예제를 생성하고, 이를 통해 일반 모델을 훈련함.
-
R1-Zero의 특성
- R1-Zero는 라벨링된 SFT 훈련 세트 없이도 추론 작업에서 뛰어남.
- 현대의 베이스 모델이 일정 수준의 품질과 능력을 넘어서고 있음을 시사함.
- 추론 문제는 자동으로 검증되거나 라벨링될 수 있음.
-
SFT 추론 데이터 생성
- 임시 추론 모델은 몇 천 개의 추론 문제 예제를 사용하여 SFT 훈련 단계를 거침.
- 이 데이터는 R1-Zero의 출력물을 읽기 쉽게 가공하여 생성됨.
-
일반 RL 훈련 단계
- R1은 추론 및 비추론 작업 모두에서 뛰어남.
- 유용성과 안전 보상 모델을 활용하여 다양한 응용 프로그램에 적용됨.
-
아키텍처
- DeepSeek-R1은 61개의 Transformer 디코더 블록으로 구성됨.
- 처음 세 개는 밀집 레이어, 나머지는 전문가 혼합 레이어로 구성됨.
-
결론
- DeepSeek-R1 모델의 주요 개념을 이해하는 데 도움이 됨.
- 추가 정보는 Hands-On Large Language Models 책이나 GitHub에서 확인 가능.