# DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델

> Clean Markdown view of GeekNews topic #28845. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28845](https://news.hada.io/topic?id=28845)
- GeekNews Markdown: [https://news.hada.io/topic/28845.md](https://news.hada.io/topic/28845.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-24T15:18:16+09:00
- Updated: 2026-04-24T15:18:16+09:00
- Original source: [huggingface.co](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)
- Points: 4
- Comments: 1

## Topic Body

-  **1M 토큰 컨텍스트**를 지원하는 Mixture-of-Experts(MoE) 기반 대규모 언어 모델로, Pro(1.6T 파라미터)와 Flash(284B 파라미터) 두 가지 버전으로 공개  
- **Compressed Sparse Attention(CSA)** 과 Heavily Compressed Attention(HCA)을 결합한 하이브리드 어텐션 아키텍처로, 100만 토큰 기준 DeepSeek-V3.2 대비 추론 FLOPs 27%, KV 캐시 10%만 사용  
- 32T 이상의 토큰으로 사전학습 후, 도메인별 전문가를 독립 학습시킨 뒤 **on-policy distillation**으로 단일 모델에 통합하는 2단계 후학습 파이프라인 적용  
- DeepSeek-V4-Pro-Max는 LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 등 코딩 벤치마크에서 **오픈소스 최고 성능** 달성  
- Non-Think, Think High, **Think Max** 세 가지 추론 모드를 지원해 일상 작업부터 최고 난이도 추론까지 용도별 선택 가능  
  
---  
  
### 모델 개요 및 아키텍처  
- DeepSeek-V4 시리즈는 **DeepSeek-V4-Pro**(총 1.6T 파라미터, 49B 활성화)와 **DeepSeek-V4-Flash**(총 284B 파라미터, 13B 활성화) 두 모델로 구성  
- 두 모델 모두 **100만 토큰 컨텍스트 길이** 지원  
- 주요 아키텍처 및 최적화 업그레이드 세 가지:  
  - **Hybrid Attention Architecture**: CSA와 HCA를 결합해 긴 컨텍스트 효율을 대폭 개선, 100만 토큰 기준 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs **27%**, KV 캐시 **10%** 로 감소  
  - **Manifold-Constrained Hyper-Connections(mHC)**: 기존 잔차 연결을 강화해 레이어 간 신호 전파 안정성과 모델 표현력을 동시에 확보  
  - **Muon Optimizer**: 더 빠른 수렴과 높은 학습 안정성 제공  
  
### 학습 및 후학습 파이프라인  
- **32T 이상**의 다양하고 고품질 토큰으로 사전학습 수행  
- 후학습은 **2단계 패러다임** 적용:  
  - 1단계: SFT와 RL(GRPO 활용)을 통해 도메인별 전문가를 독립적으로 학습  
  - 2단계: **on-policy distillation**으로 다양한 도메인의 전문성을 단일 모델에 통합  
  
### 추론 모드  
- DeepSeek-V4-Pro와 DeepSeek-V4-Flash 모두 **세 가지 추론 모드** 지원:  
  - **Non-Think**: 빠르고 직관적인 응답, 일상 업무나 저위험 의사결정에 적합  
  - **Think High**: 의식적 논리 분석, 복잡한 문제 해결이나 계획 수립에 적합  
  - **Think Max**: 추론 능력의 한계까지 확장, 모델 추론 경계 탐색용  
  
### 벤치마크 성능 — Base 모델  
- DeepSeek-V4-Pro-Base는 대부분의 벤치마크에서 V3.2-Base와 V4-Flash-Base를 상회:  
  - **MMLU**: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)  
  - **MMLU-Pro**: 73.5 (V3.2-Base 65.5)  
  - **Simple-QA Verified**: 55.2 (V3.2-Base 28.3)  
  - **FACTS Parametric**: 62.6 (V3.2-Base 27.1)  
  - **HumanEval**: 76.8 (V3.2-Base 62.8)  
  - **LongBench-V2**: 51.5 (V3.2-Base 40.2)  
- V4-Flash-Base는 13B 활성화 파라미터만으로 V3.2-Base(37B 활성화)에 근접하거나 일부 벤치마크에서 상회하는 효율성 입증  
  
### 벤치마크 성능 — Instruct 모델 (V4-Pro-Max vs 프론티어 모델)  
- **코딩 벤치마크**에서 두각:  
  - LiveCodeBench **93.5** (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)  
  - Codeforces **3206** (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)  
  - Apex Shortlist **90.2** (Gemini-3.1-Pro High 89.1)  
- **지식 및 추론** 영역:  
  - SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4로 대부분의 모델 상회하나 Gemini-3.1-Pro High(75.6, 85.9)에는 미달  
  - GPQA Diamond 90.1, MMLU-Pro 87.5  
- **에이전트 태스크**:  
  - SWE Verified **80.6**, MCPAtlas Public **73.6** 등 상위권  
  - Terminal Bench 2.0(67.9)과 HLE w/ tools(48.2)에서는 일부 클로즈드소스 모델에 미달  
- V4-Flash-Max는 더 큰 thinking budget을 부여하면 Pro 버전에 근접한 추론 성능 달성, 다만 순수 지식 태스크와 복잡한 에이전트 워크플로에서는 파라미터 규모 차이로 약간 뒤처짐  
  
### 모드별 성능 비교  
- 모든 벤치마크에서 **V4-Pro Max가 최고 성능** 기록  
- Non-Think → Think High → Think Max로 갈수록 성능이 일관되게 상승하는 패턴:  
  - 예: GPQA Diamond에서 V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1  
  - 예: LiveCodeBench에서 V4-Flash Non-Think 55.2 → Max 91.6  
- V4-Flash Max는 여러 벤치마크에서 V4-Pro High와 유사하거나 상회하는 성능  
  
### 모델 다운로드 및 정밀도  
- 네 가지 모델 제공: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro  
- Base 모델은 **FP8 Mixed** 정밀도, Instruct 모델은 **FP4 + FP8 Mixed** 정밀도 사용  
  - MoE 전문가 파라미터는 FP4, 나머지 대부분은 FP8  
- HuggingFace와 ModelScope에서 다운로드 가능  
  
### 채팅 템플릿 및 로컬 실행  
- Jinja 포맷 채팅 템플릿 미포함, 대신 `encoding` 폴더에 OpenAI 호환 포맷의 메시지 인코딩/파싱용 **Python 스크립트와 테스트 케이스** 제공  
- 로컬 배포 시 권장 샘플링 파라미터: **temperature 1.0, top_p 1.0**  
- Think Max 모드에서는 최소 **384K 토큰** 이상의 컨텍스트 윈도우 권장  
  
### 라이선스  
- 모델 가중치와 리포지토리 모두 **MIT License** 적용

## Comments


### Comment 56220

- Author: neo
- Created: 2026-04-24T15:18:17+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47884971) 
- **v4 pro**처럼 거대한 모델이 100만 토큰 출력당 4달러 정도인데, "최전선 연구소들이 추론을 미친 수준으로 보조금 때려서 돌린다"는 얘기가 정말 맞는지 잘 모르겠음  
  **구독제**도 충분히 수익이 날 것 같고, API 가격은 더 말할 것도 없어 보임  
  입력은 $1.74/M, 출력은 OpenRouter 기준 $3.48/M임
  - 지금 **DeepSeek의 추론 카드 부족** 때문에도 가격이 높다는 설명이 있음  
    올해 하반기에 Ascend 950 컴퓨팅 카드가 나오면 Pro 가격이 크게 내려갈 거라고 보도자료에서 말했다고 함
  - 운영비 기준으로는 흑자일 수 있지만, 현재 **감가상각 스케줄**까지 넣은 자본비 기준으로는 아직 아닐 수 있음  
    다만 그 비용 추정도 최근엔 예상보다 높아지는 분위기임
  - 나도 비슷하게 봄  
    **구독 서비스**는 이미 이익이 나고, 보조금 얘기는 결국 기업 고객 API에서 더 높은 마진을 뽑아내기 위한 논리처럼 보임
  - 그 지적은 맞지만, 아직 저 가격대를 맞추는 **서구권 공급자**는 없음  
    중국은 전력비도 더 저렴함

- 화려한 보도자료보다 **개발자 문서**가 먼저 나온 게 묘하게 훈훈함
  - 맞음, 진짜 **this is the way**임
  - 이걸 **오픈소스**라고 부르려면 학습 데이터와 학습 스크립트는 어디 있나 싶음  
    수정된 걸 보니 상위 댓글에서 "open source" 표현은 빠진 듯함

- 벌써 **OpenRouter**에 올라왔음  
  Pro는 입력 $1.74/m, 출력 $3.48/m이고, Flash는 입력 $0.14/m, 출력 $0.28/m임
  - 여기선 **Api Error**가 뜸  
    다른 모델은 전부 정상 동작함
  - [https://openrouter.ai/deepseek/deepseek-v4-pro](https://openrouter.ai/deepseek/deepseek-v4-pro)
  
    [https://openrouter.ai/deepseek/deepseek-v4-flash](https://openrouter.ai/deepseek/deepseek-v4-flash)

- 중국에서 진짜 **오픈소스**가 나오는 건 반갑긴 함  
  숨은 의도가 있을 수 있다는 건 알지만 그래도 마음이 감
  - 미국 회사들은 모델 접근 비용을 내는 데도 과할 정도의 신원 확인을 요구하고, 데이터를 저장·분석·학습에 쓰고, 요청만 오면 당국에 넘길 수도 있다고 대놓고 말함  
    **중국의 숨은 의도**는 가정이지만, 미국 쪽은 노골적으로 드러나 있음
  - 중국 연구소들이 왜 모델을 공개하는지 이해하려면 이 글이 도움 됨  
    [http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open](http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open)
  - **오픈 웨이트**일 뿐임

- **1.6T Pro base model**을 Hugging Face에 올렸음  
  여기서 **T급 모델** 표기를 보는 건 처음임

- [https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)
  
  모델이 공개됐고 꽤 인상적임  
  **프런티어급 성능**인데 비용은 훨씬 낮고, Opus 4.6보다 낫다고 느껴짐
  - 이제는 굳이 모델을 **Opus**와 비교할 필요가 있나 싶음  
    Opus 이용자는 어차피 계속 최고일 거라고 믿고, 비이용자는 그 비용·락인·제한을 원치 않음  
    나 같은 비사용자는 여전히 일을 끝내주는 가장 싸고 빠른 모델을 쓰는데, 지금은 **MiniMax M2.5**가 그 역할임  
    가끔 더 비싼 최신 모델을 써봐도 결과가 비슷해서, 벤치마크로만 발전하는 것처럼 보이게 만드는 **AI 업계 전체의 과장**이 있는 것 아닌가 싶기도 함
  - **Opus 4.7**과 비교하면 어떤지 궁금함  
    이번 주 내내 Anthropic Opus 4.7 해커톤에 참여하면서 4.7을 집중적으로 써봤는데, 토큰은 4.6보다 훨씬 많이 먹어도 꽤 인상적이었음
  - 정말 **Opus 4.6보다 낫다**는 건지, 아니면 그냥 벤치마크 최적화만 잘된 건지 궁금함  
    에이전트 하네스로 실제 코딩도 해봤는지 알고 싶음  
    코딩 능력이 **Claude Code + Opus 4.6**보다 낫다면 바로 갈아탈 생각임
  - 또 시작이네 싶음  
    매일같이 **Opus 4.6보다 낫다**는 출시 글이 나오는데, 정작 deepseek 본인도 thinking 포함 기준으로 opus보다 낫다고 주장하진 않음  
    Dsv3는 벤치마크 뻥튀기형 모델은 아니었고, 벤치 밖 과제에서도 꽤 안정적이었으며 SoTA에는 못 미쳐도 괜찮았음  
    이번 모델도 비슷해 보임  
    **최고 성능 바로 아래** 수준이지만 차이는 크지 않고 가격은 훨씬 낮음  
    큰 모델은 현재 ds가 직접 $1.74 in / $3.48 out / $0.14 cache에 서빙 중이라 제공 가치 대비 아주 저렴함  
    작은 모델은 $0.14 in / $0.28 out / $0.028 cache라 사실상 **너무 싸서 신경 안 써도 될 수준**이고, 집에서 돌릴 만한 현실적인 후보가 될 수 있음  
    성능만 받쳐주면 haiku나 gemini-flash 계열과 충분히 경쟁 가능해 보임
  - 공개된 벤치마크 숫자로 대충 계산해 보니, 둘 다 점수가 있는 20개 지표에서 총 **20.1퍼센트포인트 차이**가 남  
    평균 개선폭은 대략 **2% 정도**인데, 이게 엄청난 건지 시시한 건지 솔직히 애매함  
    Claude 4.6은 긴 문맥 질의응답, 특히 CorpusQA의 corpuses와 MRCR의 다중 라운드 대화에서 거의 10pp 더 좋았음  
    반면 DSv4는 IMOAnswerBench에서 무려 14pp, SimpleQA-Verified에서 12pp 더 높았음

- 가중치는 여기서 받을 수 있음  
  [https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)
  - [https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base)  
    [https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base)
    
    새 **base 모델**까지 나와서 정말 좋음

- 이 분야에 깊게 관심도 많고 실제로 많이 걸려 있기도 한데, 솔직히 이제는 전부 따라가려다 **번아웃**이 옴  
  AI 발전을 따라잡으려면 이제 **AI가 AI 발전을 요약해줘야 하는 시점**을 이미 한참 지난 느낌임
  - 따라가려 하지 않는 게 나음  
    뉴스랑 비슷해서, 정말 알아야 할 때가 오면 누군가 먼저 알려주게 되어 있음
  - 핵심 플레이어는 거의 안 바뀜  
    스포츠 챙기듯 보면 되고, **정상 자리가 바뀌는 것** 자체를 받아들이면 그렇게 힘들진 않음
  - 체감상 **GPT-4 이후**로는 계속 비슷비슷함  
    새 모델이 나와도 벤치마크 몇 개 좋아졌다는 식이고, 실제로 써보는 주관적 경험은 거의 그대로임  
    그 뒤로는 진짜 놀랄 만한 게 별로 없었고, 지금은 열성층만 관심 가지는 쪽으로 정체된 느낌도 듦

- High Flyer가 이걸 만들려고 **Anthropic을 노골적으로 베낀 것** 자체보다도, GAB가 그 안에 **xz급 이스터에그**를 수십 개 넣을 시간을 충분히 벌어줬다는 쪽이 더 거슬림

- 방금 OpenRouter로 **Pi Coding agent**에서 시험해봤는데, read와 write 도구를 제대로 못 쓰는 경우가 자주 나옴  
  꽤 실망스럽고, "직접 호출을 쓰지 말고 항상 제공된 도구를 써라" 같은 프롬프트 말고 더 나은 해결책이 있는지 궁금함
  - 나온 지 막 얼마 안 됐으니 조금 기다려보는 게 좋겠음  
    아마 **Pi와의 사전 테스트**는 아직 충분히 못 했을 가능성이 큼