3P by neo 1달전 | ★ favorite | 댓글 1개
  • DeepSeek-R1: LLM의 추론 능력 강화

    • DeepSeek-R1-Zero와 DeepSeek-R1이라는 첫 번째 세대의 추론 모델을 소개함
    • DeepSeek-R1-Zero는 대규모 강화 학습을 통해 훈련되었으며, 감독된 미세 조정 없이도 뛰어난 추론 능력을 보임
    • 그러나 가독성 문제와 언어 혼합과 같은 도전에 직면함
    • 이러한 문제를 해결하고 추론 성능을 향상시키기 위해, 다단계 훈련과 강화 학습 전의 초기 데이터 사용을 포함한 DeepSeek-R1을 도입함
    • DeepSeek-R1은 OpenAI-o1-1217과 유사한 성능을 달성함
    • 연구 커뮤니티 지원을 위해, DeepSeek-R1-Zero, DeepSeek-R1 및 Qwen과 Llama 기반으로 증류된 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 제공함
  • 주제 및 인용

    • 주제: 계산 및 언어 (cs.CL); 인공지능 (cs.AI); 기계 학습 (cs.LG)
    • 인용: arXiv:2501.12948 [cs.CL]
  • 제출 역사

    • 제출자: Wenfeng Liang
    • 제출 날짜: 2025년 1월 22일
  • 접근 방법

    • PDF, HTML, TeX 소스 등 다양한 형식으로 논문에 접근 가능
  • 참고 문헌 및 인용 도구

    • 다양한 참고 문헌 및 인용 도구 제공
  • 코드, 데이터, 미디어

    • 관련 코드 및 데이터 제공
  • arXivLabs에 대한 정보

    • arXivLabs에 대한 설명 및 지원 정보 제공
Hacker News 의견
  • DeepSeek V3 논문은 필수 사전 읽기 자료로 간주됨

    • R1 + Sonnet 조합이 다른 조합보다 우수함
    • 독립적인 재현 연구들이 여러 곳에서 진행됨
    • R1 증류는 매우 쉬워서 자주 발생할 것임
    • DeepSeek-R1이 실리콘밸리에서 큰 반향을 일으킴
  • Ollama의 r1-14b 모델을 사용해 본 결과, 모델이 실시간으로 다양한 접근 방식을 시도하고 대안을 선택하는 모습이 인간의 행동을 연상시킴

  • DeepSeek V3는 Claude Sonnet이 문제가 생긴 시점에 적절하게 등장함

    • DeepSeek의 가격이 매우 저렴하여 큰 이점이 됨
    • Aider와 Cursor에서 DeepSeek으로 완전히 전환함
  • DeepSeek의 채팅 기능이 ChatGPT Pro보다 사용하기 쉬움

    • 모델의 사고 과정을 읽을 수 있어 디버깅이 용이함
  • GPT-O1 모델의 사고 과정이 모델 내부에서 이루어지는 것에 놀람

    • OpenAI가 O1의 사고 과정을 공개할지 궁금함
  • DeepSeek R1의 성능뿐만 아니라 작은 증류 모델들도 인상적임

    • Qwen 기반 7b 증류 모델도 훌륭함
    • 32b 증류 모델이 가정 서버의 기본 모델로 사용됨
  • Larry Ellison과 Masayoshi Son은 ASI를 통해 불로장생을 목표로 함

    • ASI 개발을 위해 막대한 투자를 감행함
  • Arxiv에 100명 이상의 저자가 팀 이름으로 논문을 발표함

    • 팀워크와 사기를 높이는 데 기여함