2P by neo 1달전 | ★ favorite | 댓글과 토론

The Illustrated DeepSeek-R1

  • DeepSeek-R1 소개

    • DeepSeek-R1은 AI 발전의 중요한 이정표로, ML 연구개발 커뮤니티에 큰 영향을 미침.
    • 이 모델은 오픈 웨이트 모델로, 작은 크기의 디스틸 버전도 제공함.
    • OpenAI O1과 같은 추론 모델을 재현하는 훈련 방법을 공유하고 반영함.
  • LLM 훈련 요약

    • DeepSeek-R1은 기존 LLM과 유사하게 한 번에 하나의 토큰을 생성하며, 수학 및 추론 문제 해결에 뛰어남.
    • 고품질 LLM을 만드는 일반적인 과정은 다음과 같음:
      1. 대량의 웹 데이터를 사용하여 다음 단어를 예측하는 언어 모델링 단계.
      2. 모델을 지시를 따르고 질문에 답변할 수 있도록 만드는 감독된 미세 조정 단계.
      3. 인간의 선호에 맞춰 모델의 행동을 다듬는 선호 조정 단계.
  • DeepSeek-R1 훈련 과정

    • DeepSeek-R1은 DeepSeek-V3 모델의 베이스 모델을 사용하며, SFT 및 선호 조정 단계를 거침.
    • R1 생성 과정에서 주목할 세 가지 특별한 점:
      1. 긴 추론 체인 SFT 데이터: 60만 개의 긴 추론 예제가 포함됨.
      2. 임시 고품질 추론 LLM: 추론에 특화된 모델로, 적은 양의 라벨 데이터와 대규모 강화 학습을 통해 생성됨.
      3. 대규모 강화 학습을 통한 추론 모델 생성: R1-Zero라는 모델을 통해 추론 예제를 생성하고, 이를 통해 일반 모델을 훈련함.
  • R1-Zero의 특성

    • R1-Zero는 라벨링된 SFT 훈련 세트 없이도 추론 작업에서 뛰어남.
    • 현대의 베이스 모델이 일정 수준의 품질과 능력을 넘어서고 있음을 시사함.
    • 추론 문제는 자동으로 검증되거나 라벨링될 수 있음.
  • SFT 추론 데이터 생성

    • 임시 추론 모델은 몇 천 개의 추론 문제 예제를 사용하여 SFT 훈련 단계를 거침.
    • 이 데이터는 R1-Zero의 출력물을 읽기 쉽게 가공하여 생성됨.
  • 일반 RL 훈련 단계

    • R1은 추론 및 비추론 작업 모두에서 뛰어남.
    • 유용성과 안전 보상 모델을 활용하여 다양한 응용 프로그램에 적용됨.
  • 아키텍처

    • DeepSeek-R1은 61개의 Transformer 디코더 블록으로 구성됨.
    • 처음 세 개는 밀집 레이어, 나머지는 전문가 혼합 레이어로 구성됨.
  • 결론

    • DeepSeek-R1 모델의 주요 개념을 이해하는 데 도움이 됨.
    • 추가 정보는 Hands-On Large Language Models 책이나 GitHub에서 확인 가능.