DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다
(huggingface.co)- DeepSeek-V3.2는 높은 계산 효율성과 추론·에이전트 성능을 결합한 오픈소스 대형 언어 모델
- 새로운 DeepSeek Sparse Attention(DSA) 구조로 긴 문맥에서도 성능을 유지하며 계산 복잡도를 크게 절감
- 확장 가능한 강화학습(RL) 프레임워크를 통해 GPT-5 수준의 성능을 달성, 고성능 버전은 Gemini-3.0-Pro와 동등한 추론력 확보
- 대규모 에이전트형 작업 합성 파이프라인으로 1,800개 환경과 85,000개 프롬프트를 생성, 복잡한 상호작용 환경에서 일반화와 명령 수행력 향상
- 오픈모델이 폐쇄형 모델과의 격차를 좁히며, 비용 효율적 대안으로 자리매김
DeepSeek-V3.2 개요
- DeepSeek-V3.2는 오픈소스 LLM의 추론 및 에이전트 성능 한계를 극복하기 위해 설계된 모델
- DeepSeek Sparse Attention(DSA) , 확장형 강화학습 프레임워크, 대규모 에이전트 작업 합성 파이프라인의 세 가지 핵심 기술로 구성
- 고성능 버전인 DeepSeek-V3.2-Speciale은 GPT-5를 능가하며 Gemini-3.0-Pro와 동등한 수준의 추론 능력을 보유
- 2025년 국제수학올림피아드(IMO) 및 국제정보올림피아드(IOI) 등에서 금메달 수준의 성과 기록
- 오픈모델의 효율성과 성능을 동시에 향상시켜 폐쇄형 모델과의 성능 격차를 축소
오픈모델의 한계와 개선 방향
- 오픈소스 LLM이 폐쇄형 모델에 비해 뒤처지는 이유로 세 가지 한계가 지적됨
- 기본 어텐션 구조의 비효율성으로 긴 시퀀스 처리 시 계산 부담이 큼
- 후학습(post-training) 단계의 연산 자원 부족으로 어려운 과제에서 성능 저하
- 에이전트 일반화 및 명령 수행력 부족으로 실제 응용에서 한계 존재
- DeepSeek-V3.2는 이를 해결하기 위해 효율적 어텐션 구조, 확장형 RL 학습, 도구 활용형 추론 통합 파이프라인을 도입
DeepSeek Sparse Attention (DSA)
- DSA는 lightning indexer와 세밀한 토큰 선택 메커니즘으로 구성
- lightning indexer는 FP8 정밀도로 작동하며, 각 쿼리 토큰이 선택할 상위 k개의 키-값 쌍을 결정
- 이를 통해 O(L²) 복잡도를 O(Lk) 로 줄여 긴 문맥에서도 효율적 처리 가능
- MLA 기반 구현으로 기존 DeepSeek-V3.1-Terminus와 호환 유지
-
두 단계의 지속 학습 과정 수행
- Dense Warm-up 단계에서 indexer 초기화
- Sparse Training 단계에서 전체 모델을 DSA 패턴에 적응시켜 943.7B 토큰 학습
성능 평가 및 효율성
- DeepSeek-V3.2-Exp는 긴 문맥 처리 효율을 크게 개선하면서도 성능 저하 없이 DeepSeek-V3.1-Terminus와 동등한 결과 유지
- AA-LCR3 및 Fiction.liveBench 등 독립 벤치마크에서 전작 대비 향상된 추론 점수 기록
- H800 GPU 클러스터 기준으로 토큰당 비용이 크게 절감되어 엔드투엔드 속도 향상 달성
후학습(Post-Training) 및 강화학습 구조
-
전문가 증류(Specialist Distillation) 와 혼합형 강화학습(Mixed RL) 을 결합
- 수학, 프로그래밍, 논리추론, 일반 에이전트, 코드 에이전트, 검색 에이전트 등 6개 전문 도메인 모델을 RL로 학습
- 각 전문 모델의 데이터를 증류하여 최종 체크포인트 생성
-
Group Relative Policy Optimization(GRPO) 알고리듬을 사용해 추론·에이전트·정렬 학습을 통합
- 보상 모델, 길이 패널티, 언어 일관성 보상 등을 조합
- DeepSeek-V3.2-Speciale은 수학적 증명 능력 강화를 위해 DeepSeekMath-V2 데이터와 보상 방식을 추가 적용
강화학습 안정화 기법 (Scaling GRPO)
-
편향 없는 KL 추정(Unbiased KL Estimate) 으로 안정적 수렴 확보
- 기존 K3 추정기의 불안정한 그래디언트 문제를 해결
- Off-Policy Sequence Masking으로 정책 불일치가 큰 음의 샘플을 마스킹, 학습 안정성 향상
- Keep Routing을 통해 Mixture-of-Experts 모델의 라우팅 일관성 유지
- Keep Sampling Mask로 top-p, top-k 샘플링 시 정책 간 행동공간 불일치 방지
도구 활용형 추론(Thinking in Tool-Use)
-
Thinking Context Management를 도입해 도구 호출 시 불필요한 재추론 방지
- 사용자 메시지가 새로 추가될 때만 이전 추론 내용을 삭제
- 도구 호출 이력은 유지하여 효율적 문맥 관리
-
Cold-Start 단계에서 추론 데이터와 에이전트 데이터를 결합
- reasoning 데이터는 <think></think> 태그로 추론 경로를 명시
- 도구 호출을 포함한 시스템 프롬프트로 통합 학습 기반 마련
-
대규모 에이전트 작업 합성을 통해 1,800개 환경과 85,000개 프롬프트 생성
- 실제 웹 검색 API, 코드 실행 도구, Jupyter Notebook 등 실환경 기반 RL 학습 수행
- Search Agent는 다중 에이전트 파이프라인으로 질문 생성, 검증, 보상 평가를 자동화
- 사실 신뢰성과 실용적 유용성을 동시에 최적화하는 하이브리드 보상 모델 적용
결론
- DeepSeek-V3.2는 효율적 어텐션 구조와 확장형 RL 학습을 결합해 오픈모델의 한계를 돌파
- 추론·에이전트 통합 성능에서 폐쇄형 모델과의 격차를 크게 줄이며, 비용 효율적 대안으로 부상
- 오픈소스 LLM의 지속 가능한 고성능 발전 방향을 제시하는 사례로 평가됨
Hacker News 의견
-
그들이 계속 비용 효율성을 개선하고, 공개적으로 발전 과정을 공유하는 점이 인상적임
이런 노력이 AI 독점을 막는 힘이 되길 바라는 마음임- 하지만 실제로 누가 비용 효율성에서 “이기고 있는지”는 알 수 없음. 각 회사의 손익 구조를 모르기 때문임
- 공감하지만, 그들의 의도가 단일하다고는 생각하지 않음
- 단일 GPU에서 완전하게 돌아가기 전까지는 아무도 진정한 비용 효율성의 승자가 아님
- 경쟁사보다 훨씬 나은 모델을 만들 때까지 이런 공개를 계속할 것 같음. 하지만 정말로 우위를 점한 이후에도 계속 공개한다면 그때는 진심으로 감탄할 것 같음
- 다만 중국 공산당이 지원하는 기업을 순수한 의도로 보는 건 순진한 생각이라고 봄. 그 뒤에는 분명 다른 목적이 있을 것임
-
오픈 모델이 상용 모델과 경쟁할 수 있다면, Google·Anthropic·OpenAI 같은 회사들은 AI로 어떻게 돈을 벌 수 있을까 하는 의문이 듦
과거 오픈소스가 실패한 이유는 품질과 기능의 깊이에서 폐쇄형보다 뒤처졌기 때문인데, 지금은 성능이 정체 구간에 들어선 듯함
결국 가장 저렴한 에너지 인프라를 가진 쪽이 장기적으로 승자가 될 것 같음- Google 내부 문서에 따르면 “AI/LLM에는 해자(moat) 가 없다”고 함. 하지만 모델을 직접 소유하지 않아도 SaaS나 MaaS 형태로 제공하면 여전히 큰 수익을 낼 수 있음
예를 들어 Amazon이 MongoDB API를 서비스하듯, 결국 인프라 사용료로 돈을 버는 구조임
대부분의 기업은 자체적으로 SOTA 모델을 호스팅할 여력이 없음. 이메일 서버조차 직접 운영하지 않는 현실을 보면 이해됨
Google이 Transformer를 만들었고, OpenAI가 RLHF로 ChatGPT를 성공시켰지만, 지금은 다시 Google의 AI 요약 기능이 검색 상단을 차지하고 있음
관련 문서: Google “We have no moat, and neither does OpenAI” - 기업들은 OpenAI나 Anthropic을 신뢰함. 문제가 생겼을 때 책임을 전가할 대상이 있다는 점도 중요함
- 만약 우주에서 저렴한 에너지를 확보할 수 있다면, Musk가 AI 경쟁에서 큰 우위를 점할 수도 있음. 그는 달에 AI 위성 공장을 세우는 것에 집착하고 있음
- 결국 승부는 UX, 락인, 신뢰의 조합임. 개인 데이터에 깊이 접근하는 AI일수록 사람들은 익숙한 브랜드를 선호함
- 순수 모델 자체로는 수익이 나지 않음. 기존 수익화된 플랫폼에 모델을 통합하는 것이 핵심 가치임
- Google 내부 문서에 따르면 “AI/LLM에는 해자(moat) 가 없다”고 함. 하지만 모델을 직접 소유하지 않아도 SaaS나 MaaS 형태로 제공하면 여전히 큰 수익을 낼 수 있음
-
이번 모델은 벤치마크뿐 아니라 추론 효율성도 크게 개선되었다고 함
관련 링크: Thomas Ip의 성능 비교- 왜 그렇게 효율적인지 이유가 궁금함
-
DeepSeek-V3.2의 chat template이 크게 바뀌었음.
처음엔 새로운 포맷을 만든 줄 알았는데, 문법을 보니 사실상 Harmony 포맷과 동일해 보임
그렇다면 처음부터 Harmony 호환이라고 명시했으면 이해가 더 쉬웠을 것 같음 -
왜 32~512GB급 모델이 거의 없고, Mac Studio M4의 최대 RAM이 128GB인지 궁금함
- 농담이지만 “128GB면 충분하다”는 말이 떠오름. M5 Max에서는 더 큰 RAM을 기대함
-
이런 모델이 오픈소스로 공개되는 건 멋짐. 하지만 RTX 5090 네 장짜리 $20,000짜리 리그로도 충분히 빠르게 돌릴 수 있을까 의문임
- 512GB Mac Studio M3 Ultra에서는 초당 약 20토큰 정도 나온다고 함. 데모 영상
- 대형 모델은 클라우드에서 시간당 혹은 토큰당 과금으로 돌리는 게 현실적임. 직접 H100 랙을 사서 돌릴 수도 있지만, 클라우드 사용이 훨씬 효율적임
- 개인용 리그는 이제 비용 효율이 떨어짐. GPU, 전력, 냉각비까지 고려하면 RTX Pro 6000을 사는 게 낫다고 봄
- OpenRouter에서 DeepSeek-V3.2를 제공하는 두 곳(DeepSeek 포함) 모두 약 28tps로 돌리고 있음. OpenRouter 링크
이 점이 오히려 원 댓글의 주장(소비자용으로는 느리다)을 뒷받침함 - 나도 6개의 RTX 3090을 가진 리그를 쓰는데, 685B 파라미터 모델은 너무 느림. 144B 이하 모델만 써야 쾌적함. GLM 4.5 Air가 특히 좋았음
-
논문 표 3을 보면 DS-Speciale이 거의 모든 테스트에서 1~2위를 차지하지만, 토큰 출력량이 50% 이상 많음
- 일부 논리 추론 문제는 더 긴 사고 체인이 필요함. 비용이 낮은 DeepSeek은 이 부분을 극대화할 수 있었음
여러 해답을 병렬로 생성하고 최종 답을 선택하는 방식으로 추론 성능을 계산 자원으로 확장할 수 있음
- 일부 논리 추론 문제는 더 긴 사고 체인이 필요함. 비용이 낮은 DeepSeek은 이 부분을 극대화할 수 있었음
-
몇 시간 써본 결과, 매우 탄탄하고 경쟁력 있는 모델임. GLM4.6보다 낫고 Kimi K2보다도 좋다고 느낌. v4가 기대됨
-
MIT 라이선스로 공개된 대형 프런티어급 모델이라는 점이 흥미로움
-
미국 AI 산업의 평가 기준을 잘 모르겠음. 중국 모델이 훨씬 저렴하면서도 거의 비슷한 성능을 내고 있음
- 중국 모델은 주로 텍스트 중심이고, 미국·유럽 모델은 이미지·음성·비디오까지 다루느라 비용이 큼
또 벤치마크가 포화 상태라 격차가 작아 보이지만, 상위권에서 1% 차이는 실제로 큰 의미가 있음
내가 만든 Metabench 리더보드에서도 중국 모델이 좋긴 하지만 여전히 상위권과의 차이는 존재함
다만 추론 비용이 낮아 가성비 영역에서는 중국 모델이 강함 - 실제 배포에서는 인프라 속도가 관건임. OpenRouter에서 중국 모델은 Claude, GPT, Gemini만큼 빠르지 않음
미국 기업들은 모델뿐 아니라 전 세계 저지연 인프라를 함께 판매하는 셈임. 그게 높은 기업가치를 설명함
참고로 Cerebras는 매우 빠른 GLM 4.6을 제공 중임 - 서드파티 제공자들이 캐싱을 지원하지 않음. 캐싱이 활성화되면 미국 모델의 비용이 2배 수준으로 떨어져 훨씬 경쟁력 있어질 것임
- 미국 기업의 밸류에이션은 현재 성과보다 미래 가능성에 기반함. 중국 연구에 대한 이해가 부족한 상태에서의 투자임
어쩌면 DeepSeek이 금지되고 미국 내에서 오픈소프트웨어가 차단될 거라는 가정이 깔려 있는 듯함 - 그래도 미국이 먼저 FOMO(놓칠까 두려움) 로 경쟁을 촉발하지 않았다면, 중국의 전략도 지금처럼 통하지 않았을 것임
앞으로는 세부적인 엣지 케이스에서 프런티어 모델이 차별화될 가능성이 있음
- 중국 모델은 주로 텍스트 중심이고, 미국·유럽 모델은 이미지·음성·비디오까지 다루느라 비용이 큼