5P by neo 21일전 | ★ favorite | 댓글 1개

이해하기: 추론 모델

  • 추론 모델의 정의: 추론 모델은 복잡한 문제를 해결하기 위해 중간 단계를 포함한 다단계 생성이 필요한 질문에 답하는 과정임. 예를 들어, "기차가 시속 60마일로 3시간 동안 이동하면 얼마나 멀리 가는가?"와 같은 질문은 단순한 사실 기반 질문과 달리 추론이 필요함.

  • 추론 모델의 필요성: 퍼즐, 고급 수학 문제, 복잡한 코딩 문제와 같은 복잡한 작업에 적합함. 그러나 요약, 번역, 지식 기반 질문 응답과 같은 간단한 작업에는 필요하지 않음. 추론 모델은 비용이 많이 들고 때로는 과도한 생각으로 인해 오류가 발생할 수 있음.

DeepSeek R1 훈련 파이프라인

  • DeepSeek-R1-Zero: 671B 사전 훈련된 DeepSeek-V3 기반 모델로, 강화 학습(RL)만으로 훈련됨. 이는 "콜드 스타트" 훈련으로 불리며, 일반적인 RLHF와 달리 감독된 미세 조정(SFT) 단계가 없음.

  • DeepSeek-R1: DeepSeek의 주력 추론 모델로, DeepSeek-R1-Zero를 기반으로 추가 SFT 단계와 RL 훈련을 통해 개선됨.

  • DeepSeek-R1-Distill: 이전 단계에서 생성된 SFT 데이터를 사용하여 Qwen 및 Llama 모델을 미세 조정하여 추론 능력을 향상시킴.

추론 모델 구축 및 개선을 위한 4가지 주요 방법

  1. 추론 시간 스케일링: 추론 중 컴퓨팅 자원을 늘려 출력 품질을 향상시키는 방법. 예를 들어, "단계별로 생각하기"와 같은 문구를 입력 프롬프트에 포함하여 모델이 중간 추론 단계를 생성하도록 유도함.

  2. 순수 강화 학습(RL): DeepSeek-R1-Zero는 순수 RL을 통해 추론이 행동으로 나타날 수 있음을 보여줌. 정확도 보상과 형식 보상을 사용하여 모델이 기본적인 추론 기술을 개발하도록 함.

  3. 감독된 미세 조정(SFT) 및 강화 학습(RL): DeepSeek-R1은 SFT와 RL을 결합하여 추론 성능을 향상시킴. 이는 고성능 추론 모델을 구축하는 데 중요한 접근 방식임.

  4. 순수 감독된 미세 조정(SFT) 및 증류: DeepSeek는 더 작은 모델을 훈련하여 효율성을 높임. 이는 더 작은 모델이지만 DeepSeek-R1-Zero에 비해 상대적으로 강력한 성능을 보임.

DeepSeek R1에 대한 생각

  • DeepSeek-R1은 오픈 소스 MIT 라이선스로 제공되어 연구자들에게 유용한 자원이 됨. OpenAI의 o1과 비교했을 때, DeepSeek-R1은 추론 시간에서 더 효율적임. 그러나 OpenAI의 o1에 대한 세부 정보가 부족하여 직접적인 비교는 어려움.

제한된 예산으로 추론 모델 개발

  • 모델 증류는 비용 효율적인 대안이 될 수 있음. DeepSeek 팀은 R1-distilled 모델을 통해 이를 입증했으며, 이는 DeepSeek-R1보다 훨씬 작지만 강력한 추론 성능을 보여줌.
Hacker News 의견
  • LLM의 추론 모델이 코딩 및 수학 문제에 과도하게 최적화되어 있는 경향이 있음

    • 잘 정의되지 않은 문제는 더 많은 추론이 필요하며, 이는 단순히 소프트웨어 엔지니어링의 모호함을 넘어서야 함
    • LLM이 수학 문제에 과도하게 맞춰져 다른 분야에서는 충분히 생각하지 않는 경향이 있음
    • 자기 학습을 좋아하며, 복잡한 주제를 이해하고 오해를 파악할 수 있는 대화 상대가 필요함
    • LLM이 코딩 문제를 잘 해결할 수 있지만, 과도하게 코딩/수학 퍼즐에 맞춰져 있음
  • LLM을 자연어가 아닌 제한된 형식 언어로 훈련하는 연구가 필요함

    • Lean과 ChatGPT의 통합 작업이 있지만, 자연어 훈련 LLM이 주도하는 방식은 아님
    • 창의적으로 다양한 시도를 하고, 잘못된 경로를 피할 수 있는 시스템을 상상함
  • 추론 모델의 "과도한 생각"이 다음 큰 문제가 될 수 있음

    • 더 깊이 생각하는 것이 항상 좋은 것은 아님
  • R1 논문은 쉽게 읽을 수 있으며, 결과가 스스로를 설명함

    • R1, V3, DeepSeekMath 논문을 읽어볼 것을 추천함
  • LLM이 실제로 "생각"하는지 여부는 별도의 논의임

    • 컴퓨터가 생각할 수 있는지 여부는 오래전에 해결된 문제임
  • AI가 의료 영상에서 과도한 식별을 하는 실제 사례가 있음

    • 훈련 데이터가 암을 나타내는 요소로 인식하게 만듦
  • LLM은 추론할 수 없음을 이해해야 함

  • DeepSeek-R1 기술 보고서에서 "aha moment" 주장이 의심스러움

    • DeepSeek V3 모델이 기반이며, 과도한 생각과 형식 문제를 겪음
    • 커뮤니티가 파이프라인을 재구현하려고 노력 중임
  • 몇 달 전 HN에 LLM 개선을 위한 정제 방법을 제안했으며, 이는 현재 "추론"으로 설명됨

    • DeepSeek가 시장을 단순한 방법으로 장악할 줄 몰랐음
    • 직관을 진지하게 받아들여야 함