DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델

(huggingface.co)

4P by GN⁺ 6시간전 | ★ favorite | 댓글 1개

1M 토큰 컨텍스트를 지원하는 Mixture-of-Experts(MoE) 기반 대규모 언어 모델로, Pro(1.6T 파라미터)와 Flash(284B 파라미터) 두 가지 버전으로 공개
Compressed Sparse Attention(CSA) 과 Heavily Compressed Attention(HCA)을 결합한 하이브리드 어텐션 아키텍처로, 100만 토큰 기준 DeepSeek-V3.2 대비 추론 FLOPs 27%, KV 캐시 10%만 사용
32T 이상의 토큰으로 사전학습 후, 도메인별 전문가를 독립 학습시킨 뒤 on-policy distillation으로 단일 모델에 통합하는 2단계 후학습 파이프라인 적용
DeepSeek-V4-Pro-Max는 LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 등 코딩 벤치마크에서 오픈소스 최고 성능 달성
Non-Think, Think High, Think Max 세 가지 추론 모드를 지원해 일상 작업부터 최고 난이도 추론까지 용도별 선택 가능

모델 개요 및 아키텍처

DeepSeek-V4 시리즈는 DeepSeek-V4-Pro(총 1.6T 파라미터, 49B 활성화)와 DeepSeek-V4-Flash(총 284B 파라미터, 13B 활성화) 두 모델로 구성
두 모델 모두 100만 토큰 컨텍스트 길이 지원
주요 아키텍처 및 최적화 업그레이드 세 가지:
- Hybrid Attention Architecture: CSA와 HCA를 결합해 긴 컨텍스트 효율을 대폭 개선, 100만 토큰 기준 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs 27%, KV 캐시 10% 로 감소
- Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결을 강화해 레이어 간 신호 전파 안정성과 모델 표현력을 동시에 확보
- Muon Optimizer: 더 빠른 수렴과 높은 학습 안정성 제공

학습 및 후학습 파이프라인

32T 이상의 다양하고 고품질 토큰으로 사전학습 수행
후학습은 2단계 패러다임 적용:
- 1단계: SFT와 RL(GRPO 활용)을 통해 도메인별 전문가를 독립적으로 학습
- 2단계: on-policy distillation으로 다양한 도메인의 전문성을 단일 모델에 통합

추론 모드

DeepSeek-V4-Pro와 DeepSeek-V4-Flash 모두 세 가지 추론 모드 지원:
- Non-Think: 빠르고 직관적인 응답, 일상 업무나 저위험 의사결정에 적합
- Think High: 의식적 논리 분석, 복잡한 문제 해결이나 계획 수립에 적합
- Think Max: 추론 능력의 한계까지 확장, 모델 추론 경계 탐색용

벤치마크 성능 — Base 모델

DeepSeek-V4-Pro-Base는 대부분의 벤치마크에서 V3.2-Base와 V4-Flash-Base를 상회:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base는 13B 활성화 파라미터만으로 V3.2-Base(37B 활성화)에 근접하거나 일부 벤치마크에서 상회하는 효율성 입증

벤치마크 성능 — Instruct 모델 (V4-Pro-Max vs 프론티어 모델)

코딩 벤치마크에서 두각:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
지식 및 추론 영역:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4로 대부분의 모델 상회하나 Gemini-3.1-Pro High(75.6, 85.9)에는 미달
- GPQA Diamond 90.1, MMLU-Pro 87.5
에이전트 태스크:
- SWE Verified 80.6, MCPAtlas Public 73.6 등 상위권
- Terminal Bench 2.0(67.9)과 HLE w/ tools(48.2)에서는 일부 클로즈드소스 모델에 미달
V4-Flash-Max는 더 큰 thinking budget을 부여하면 Pro 버전에 근접한 추론 성능 달성, 다만 순수 지식 태스크와 복잡한 에이전트 워크플로에서는 파라미터 규모 차이로 약간 뒤처짐

모드별 성능 비교

모든 벤치마크에서 V4-Pro Max가 최고 성능 기록
Non-Think → Think High → Think Max로 갈수록 성능이 일관되게 상승하는 패턴:
- 예: GPQA Diamond에서 V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- 예: LiveCodeBench에서 V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max는 여러 벤치마크에서 V4-Pro High와 유사하거나 상회하는 성능

모델 다운로드 및 정밀도

네 가지 모델 제공: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
Base 모델은 FP8 Mixed 정밀도, Instruct 모델은 FP4 + FP8 Mixed 정밀도 사용
- MoE 전문가 파라미터는 FP4, 나머지 대부분은 FP8
HuggingFace와 ModelScope에서 다운로드 가능

채팅 템플릿 및 로컬 실행

Jinja 포맷 채팅 템플릿 미포함, 대신 encoding 폴더에 OpenAI 호환 포맷의 메시지 인코딩/파싱용 Python 스크립트와 테스트 케이스 제공
로컬 배포 시 권장 샘플링 파라미터: temperature 1.0, top_p 1.0
Think Max 모드에서는 최소 384K 토큰 이상의 컨텍스트 윈도우 권장

라이선스

모델 가중치와 리포지토리 모두 MIT License 적용

▲

GN⁺ 6시간전 [-]

Hacker News 의견들

v4 pro처럼 거대한 모델이 100만 토큰 출력당 4달러 정도인데, "최전선 연구소들이 추론을 미친 수준으로 보조금 때려서 돌린다"는 얘기가 정말 맞는지 잘 모르겠음
구독제도 충분히 수익이 날 것 같고, API 가격은 더 말할 것도 없어 보임
입력은 $1.74/M, 출력은 OpenRouter 기준 $3.48/M임
- 지금 DeepSeek의 추론 카드 부족 때문에도 가격이 높다는 설명이 있음
  올해 하반기에 Ascend 950 컴퓨팅 카드가 나오면 Pro 가격이 크게 내려갈 거라고 보도자료에서 말했다고 함
- 운영비 기준으로는 흑자일 수 있지만, 현재 감가상각 스케줄까지 넣은 자본비 기준으로는 아직 아닐 수 있음
  다만 그 비용 추정도 최근엔 예상보다 높아지는 분위기임
- 나도 비슷하게 봄
  구독 서비스는 이미 이익이 나고, 보조금 얘기는 결국 기업 고객 API에서 더 높은 마진을 뽑아내기 위한 논리처럼 보임
- 그 지적은 맞지만, 아직 저 가격대를 맞추는 서구권 공급자는 없음
  중국은 전력비도 더 저렴함
화려한 보도자료보다 개발자 문서가 먼저 나온 게 묘하게 훈훈함
- 맞음, 진짜 this is the way임
- 이걸 오픈소스라고 부르려면 학습 데이터와 학습 스크립트는 어디 있나 싶음
  수정된 걸 보니 상위 댓글에서 "open source" 표현은 빠진 듯함
벌써 OpenRouter에 올라왔음
Pro는 입력 $1.74/m, 출력 $3.48/m이고, Flash는 입력 $0.14/m, 출력 $0.28/m임
- 여기선 Api Error가 뜸
  다른 모델은 전부 정상 동작함
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
중국에서 진짜 오픈소스가 나오는 건 반갑긴 함
숨은 의도가 있을 수 있다는 건 알지만 그래도 마음이 감
- 미국 회사들은 모델 접근 비용을 내는 데도 과할 정도의 신원 확인을 요구하고, 데이터를 저장·분석·학습에 쓰고, 요청만 오면 당국에 넘길 수도 있다고 대놓고 말함
  중국의 숨은 의도는 가정이지만, 미국 쪽은 노골적으로 드러나 있음
- 중국 연구소들이 왜 모델을 공개하는지 이해하려면 이 글이 도움 됨
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- 오픈 웨이트일 뿐임
1.6T Pro base model을 Hugging Face에 올렸음
여기서 T급 모델 표기를 보는 건 처음임
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

모델이 공개됐고 꽤 인상적임
프런티어급 성능인데 비용은 훨씬 낮고, Opus 4.6보다 낫다고 느껴짐
- 이제는 굳이 모델을 Opus와 비교할 필요가 있나 싶음
  Opus 이용자는 어차피 계속 최고일 거라고 믿고, 비이용자는 그 비용·락인·제한을 원치 않음
  나 같은 비사용자는 여전히 일을 끝내주는 가장 싸고 빠른 모델을 쓰는데, 지금은 MiniMax M2.5가 그 역할임
  가끔 더 비싼 최신 모델을 써봐도 결과가 비슷해서, 벤치마크로만 발전하는 것처럼 보이게 만드는 AI 업계 전체의 과장이 있는 것 아닌가 싶기도 함
- Opus 4.7과 비교하면 어떤지 궁금함
  이번 주 내내 Anthropic Opus 4.7 해커톤에 참여하면서 4.7을 집중적으로 써봤는데, 토큰은 4.6보다 훨씬 많이 먹어도 꽤 인상적이었음
- 정말 Opus 4.6보다 낫다는 건지, 아니면 그냥 벤치마크 최적화만 잘된 건지 궁금함
  에이전트 하네스로 실제 코딩도 해봤는지 알고 싶음
  코딩 능력이 Claude Code + Opus 4.6보다 낫다면 바로 갈아탈 생각임
- 또 시작이네 싶음
  매일같이 Opus 4.6보다 낫다는 출시 글이 나오는데, 정작 deepseek 본인도 thinking 포함 기준으로 opus보다 낫다고 주장하진 않음
  Dsv3는 벤치마크 뻥튀기형 모델은 아니었고, 벤치 밖 과제에서도 꽤 안정적이었으며 SoTA에는 못 미쳐도 괜찮았음
  이번 모델도 비슷해 보임
  최고 성능 바로 아래 수준이지만 차이는 크지 않고 가격은 훨씬 낮음
  큰 모델은 현재 ds가 직접 $1.74 in / $3.48 out / $0.14 cache에 서빙 중이라 제공 가치 대비 아주 저렴함
  작은 모델은 $0.14 in / $0.28 out / $0.028 cache라 사실상 너무 싸서 신경 안 써도 될 수준이고, 집에서 돌릴 만한 현실적인 후보가 될 수 있음
  성능만 받쳐주면 haiku나 gemini-flash 계열과 충분히 경쟁 가능해 보임
- 공개된 벤치마크 숫자로 대충 계산해 보니, 둘 다 점수가 있는 20개 지표에서 총 20.1퍼센트포인트 차이가 남
  평균 개선폭은 대략 2% 정도인데, 이게 엄청난 건지 시시한 건지 솔직히 애매함
  Claude 4.6은 긴 문맥 질의응답, 특히 CorpusQA의 corpuses와 MRCR의 다중 라운드 대화에서 거의 10pp 더 좋았음
  반면 DSv4는 IMOAnswerBench에서 무려 14pp, SimpleQA-Verified에서 12pp 더 높았음
가중치는 여기서 받을 수 있음
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  새 base 모델까지 나와서 정말 좋음
이 분야에 깊게 관심도 많고 실제로 많이 걸려 있기도 한데, 솔직히 이제는 전부 따라가려다 번아웃이 옴
AI 발전을 따라잡으려면 이제 AI가 AI 발전을 요약해줘야 하는 시점을 이미 한참 지난 느낌임
- 따라가려 하지 않는 게 나음
  뉴스랑 비슷해서, 정말 알아야 할 때가 오면 누군가 먼저 알려주게 되어 있음
- 핵심 플레이어는 거의 안 바뀜
  스포츠 챙기듯 보면 되고, 정상 자리가 바뀌는 것 자체를 받아들이면 그렇게 힘들진 않음
- 체감상 GPT-4 이후로는 계속 비슷비슷함
  새 모델이 나와도 벤치마크 몇 개 좋아졌다는 식이고, 실제로 써보는 주관적 경험은 거의 그대로임
  그 뒤로는 진짜 놀랄 만한 게 별로 없었고, 지금은 열성층만 관심 가지는 쪽으로 정체된 느낌도 듦
High Flyer가 이걸 만들려고 Anthropic을 노골적으로 베낀 것 자체보다도, GAB가 그 안에 xz급 이스터에그를 수십 개 넣을 시간을 충분히 벌어줬다는 쪽이 더 거슬림
방금 OpenRouter로 Pi Coding agent에서 시험해봤는데, read와 write 도구를 제대로 못 쓰는 경우가 자주 나옴
꽤 실망스럽고, "직접 호출을 쓰지 말고 항상 제공된 도구를 써라" 같은 프롬프트 말고 더 나은 해결책이 있는지 궁금함
- 나온 지 막 얼마 안 됐으니 조금 기다려보는 게 좋겠음
  아마 Pi와의 사전 테스트는 아직 충분히 못 했을 가능성이 큼

답변달기

DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델

모델 개요 및 아키텍처

학습 및 후학습 파이프라인

추론 모드

벤치마크 성능 — Base 모델

벤치마크 성능 — Instruct 모델 (V4-Pro-Max vs 프론티어 모델)

모드별 성능 비교

모델 다운로드 및 정밀도

채팅 템플릿 및 로컬 실행

라이선스

함께 보면 좋은 글 β

Hacker News 의견들