# DeepSeekMath-V2 공개 - 자기 검증 가능한 수학적 추론을 향하여

> Clean Markdown view of GeekNews topic #24763. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24763](https://news.hada.io/topic?id=24763)
- GeekNews Markdown: [https://news.hada.io/topic/24763.md](https://news.hada.io/topic/24763.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-12-02T10:07:17+09:00
- Updated: 2025-12-02T10:07:17+09:00
- Original source: [huggingface.co](https://huggingface.co/deepseek-ai/DeepSeek-Math-V2)
- Points: 5
- Comments: 1

## Summary

**DeepSeekMath-V2**는 단순히 정답을 맞히는 수준을 넘어, 모델이 스스로 **추론 과정을 검증하고 수정**할 수 있도록 설계된 **자기 검증형 수학 AI**입니다. 기존 강화학습이 ‘정답 보상’에 치중했던 한계를 넘어, **검증기(verifier)** 를 보상 모델로 활용해 **정리 증명 수준의 논리 전개**를 학습하며, 검증 계산량을 확장해 더 어려운 증명 데이터를 자동 라벨링합니다. 그 결과 IMO·CMO·Putnam 등에서 최고 점수를 기록하며, **신뢰 가능한 수학적 추론 모델**의 가능성을 입증했습니다. “정답보다 과정이 중요하다”는 말을 AI가 실천하기 시작했다는 점이 인상적입니다.

## Topic Body

- 대형 언어 모델의 **수학적 추론 능력 향상**을 목표로, 단순한 정답 정확도를 넘어 **추론 과정의 검증 가능성**을 강화한 모델  
- 기존 강화학습 기반 접근이 **최종 답 보상 중심**으로 한계를 보인 점을 개선해, **자기 검증(self-verification)** 메커니즘을 도입  
- **정리 증명(theorem proving)** 과 같은 단계별 논리 전개가 필요한 문제에서, 생성 모델이 스스로 오류를 찾아 수정하도록 설계  
- 검증기(verifier)를 보상 모델로 활용하고, **검증 계산량을 확장**해 어려운 증명 데이터를 자동 라벨링함으로써 지속적 성능 향상  
- **IMO 2025, CMO 2024, Putnam 2024** 등에서 최고 수준의 점수를 기록하며, **자기 검증형 수학 AI의 실현 가능성**을 입증  

---

### 1. 소개 (Introduction)
- 대형 언어 모델(LLM)은 **수학적 추론**에서 큰 진전을 이루었으며, 이는 AI 연구의 중요한 시험대 역할을 함  
  - 강화학습을 통해 **정답 보상 기반 학습**을 수행하면서 AIME, HMMT 등 대회에서 1년 만에 상위권 성능 달성  
- 그러나 단순히 **최종 답의 정확도**를 높이는 접근은 한계가 있음  
  - 정답이 맞더라도 **추론 과정의 타당성**이 보장되지 않으며, 정리 증명처럼 **단계별 논리 전개**가 필요한 문제에는 적용 불가  
- 이를 해결하기 위해 **자기 검증(self-verification)** 개념을 도입, 추론의 포괄성과 엄밀성을 평가하도록 설계  
  - 특히 **해답이 알려지지 않은 문제(open problems)** 에서 테스트 시 계산 확장을 위해 필수적 요소로 제시  
- 연구팀은 **정확하고 신뢰할 수 있는 LLM 기반 검증기(verifier)** 를 훈련하고, 이를 보상 모델로 활용해 **증명 생성기(generator)** 를 학습  
  - 생성기가 스스로 증명 내 오류를 찾아 수정하도록 유도  
- 생성기의 성능이 향상될수록 검증 난이도도 높아지므로, **검증 계산을 확장(scale verification compute)** 하여 새로운 어려운 증명을 자동 라벨링  
  - 이를 통해 검증기 성능을 지속적으로 개선  
- 결과 모델 **DeepSeekMath-V2** 는 **IMO 2025, CMO 2024에서 금메달 수준**, **Putnam 2024에서 118/120점**을 기록  
  - 이러한 결과는 **자기 검증형 수학적 추론**이 실현 가능한 연구 방향임을 보여줌  

### 2. 평가 결과 (Evaluation Results)
- 평가에는 **DeepMind의 DeepThink IMO-Gold 팀**이 개발한 **IMO-ProofBench** 와 최근 수학 대회(IMO 2025, CMO 2024, Putnam 2024)가 사용됨  
  - 구체적 수치나 세부 결과는 본문에 명시되지 않음  

### 3. 모델 구조 및 기반 (Model Architecture)
- **DeepSeekMath-V2** 는 **DeepSeek-V3.2-Exp-Base** 모델을 기반으로 구축  
  - 추론(inference) 관련 지원은 DeepSeek-V3.2-Exp GitHub 저장소 참고  

### 4. 라이선스 (License)
- 모델과 가중치는 **Apache License 2.0** 하에 배포  

### 5. 인용 정보 (Citation)
- 연구 저자와 논문 정보가 명시되어 있으며, 제목은  
  **“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)**  

### 6. 기타 정보
- 최근 한 달간 다운로드 수 **4,434회**  
- 모델 트리 구성 시 **기본 모델이 자기 참조 루프**를 형성하여 트리 생성 불가로 표시됨

## Comments


### Comment 47062

- Author: neo
- Created: 2025-12-02T10:07:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46105079) 
- 이번에 공개된 모델은 **Apache 2.0 라이선스**로 가중치를 오픈소스로 공개했음  
  OpenAI나 DeepMind의 IMO 금메달 모델들은 여전히 비공개 상태임  
  - AI 기업들이 학습 데이터의 저작권을 다루는 방식처럼, 우리도 **가중치의 저작권**을 그렇게 다뤄야 한다고 생각함  
  - 하지만 가중치만 공개하고 **훈련 코드나 데이터**를 공개하지 않으면 여전히 폐쇄적인 모델로 남는 것임  

- 이전 토론은 [이 링크](https://news.ycombinator.com/item?id=46072786)에 있음  
  - 그 링크를 놓쳤었음, 공유해줘서 고마움  

- 오픈 가중치 모델들이 수학이나 추론 같은 **특화 영역**에서 빠르게 따라잡는 게 인상적임  
  복잡한 논리나 코딩 관련 테스트도 해본 사람이 있는지 궁금함. 수학 성능이 좋은 모델은 종종 **디버깅**이나 알고리즘 생성에서도 강함  
  - 특정 도메인에 특화된 모델은 상업적 가치가 낮고, 대규모 LLM 학습은 **범용성**을 선호하기 때문에 자연스러운 현상임  
  - kimi-k2는 코딩에서는 꽤 괜찮지만, Anthropic이나 OpenAI, Google의 **SOTA 모델** 수준에는 미치지 못함  

- 이 모델의 성과에 대해 **회의적 시각**도 필요하다고 봄  
  인터넷에서 수집한 문제를 그대로 학습했다고 명시했는데, **벤치마크 오염 제거**나 2024/2025년 문제 제외 여부를 언급하지 않았음  
  OpenAI나 Google은 2025년 문제를 사전에 접근하지 못한 상태에서 실험 모델을 테스트했음  

- OpenAI의 금메달 모델이 왜 아직 공개되지 않았는지 궁금함  
  - 그건 단순히 **광고용**이었음. 거기서 얻은 교훈을 다음 범용 모델에 반영할 예정임  

- 이번 모델은 **범용 모델이 아님**이 중요함. Google과 OpenAI의 모델은 범용 모델을 사용했음  
  - 실제로 OpenAI와 Google 모두 IMO용으로 **특화된 연구 모델**을 사용했음  
    - OpenAI는 [이 트윗](https://xcancel.com/alexwei_/status/1946477756738629827#m)에서 GPT-5 출시를 예고하며, IMO 모델은 실험용이라 당분간 공개 계획이 없다고 밝힘  
    - DeepMind는 [공식 블로그](https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/)에서 강화학습 기반의 **다단계 추론**과 **정리 증명 데이터**로 Gemini를 훈련했다고 설명함  
  - [DeepSeek의 공식 포스트](https://x.com/deepseek_ai/status/1995452646459858977)도 함께 공유됨  

- 이런 모델을 집에서 돌리려면 어떻게 해야 하는지 궁금함  
  CPU 기반으로 RAM 1TB 정도면 가능한가 하는 의문임  
  - 다운로드 데이터만 **690GB**라서, 1TB RAM이 필요할 듯함. 내 두 대의 Strix Halo 머신으로도 불가능함  
  - **ik_llama.cpp**와 충분한 RAM, GPU 한 장으로 느리게라도 실행 가능함. 일반 llama.cpp도 되지만 ik 포크가 더 효율적임  
  - Thunderbolt 5로 연결된 512GB Mac Studio 두 대로도 가능하다고 함  

- 혹시 이 모델이 OpenAI나 Google의 출력물을 **직접 증류(distill)** 한 게 아닌지 의심됨  

- 이 모델이 **OpenRouter**에 올라올 계획이 있는지 궁금함  

- OpenAI가 ChatGPT에 광고를 넣으면 사람들이 바로 다른 모델로 옮기지 않을까 하는 의문임  
  - 오히려 여러 제공자가 **시장가로 경쟁하는 범용 모델**을 내놓는 게 바람직하다고 생각함  
  - 광고 여부와 상관없이 OpenAI를 신뢰하지 않음. 이름을 **CloseAI**로 바꾸기 전엔 믿기 어려움  
  - ChatGPT는 그냥 웹사이트임. 웹사이트에 광고가 있는 건 이상한 일이 아님. **Instagram**도 마찬가지임  
  - GPU 데이터센터와 API를 통해 이미 수익 구조를 갖추고 있음. 경쟁이 생기더라도 당분간은 **1순위 선택지**로 남을 것임  
  - Google도 수십 년간 광고를 했지만, 아무도 다른 검색엔진으로 옮기지 않았음