# DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개

> Clean Markdown view of GeekNews topic #23360. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23360](https://news.hada.io/topic?id=23360)
- GeekNews Markdown: [https://news.hada.io/topic/23360.md](https://news.hada.io/topic/23360.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-09-30T09:39:24+09:00
- Updated: 2025-09-30T09:39:24+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/DeepSeek-V3.2-Exp)
- Points: 2
- Comments: 1

## Topic Body

- **V3.1-Terminus**를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 **DeepSeek Sparse Attention**(희소 어텐션 메커니즘)을 도입한 **실험적 모델**  
- Sparse Attention은 세밀한 단위의 희소 연산을 지원해, **훈련 및 추론 효율성**을 대폭 개선하면서도 **출력 품질은 기존과 유사한 수준**을 유지함  
- 주요 벤치마크에서 V3.1-Terminus와 **성능이 유사하거나 일부 개선**된 결과를 보였으며, 특히 **코딩·수학 문제 해결 및 에이전트형 툴 사용** 시 성과가 확인됨  
- 연구·활용을 위해 **TileLang, DeepGEMM, FlashMLA** 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨  
- HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 **효율적 트랜스포머 아키텍처** 연구와 실무 적용의 기반이 될 전망임  
  
---  
### 소개  
- DeepSeek-V3.2-Exp는 V3.1-Terminus를 바탕으로 개발된 **차세대 아키텍처 전 단계 모델**임  
- 핵심 특징은 **긴 문맥에서 효율적인 추론과 학습**을 가능케 하는 **DeepSeek Sparse Attention(DSA)** 적용  
- 목표는 **계산 효율성 개선**과 **확장된 텍스트 시퀀스 처리**의 최적화  
  
### 주요 성과  
- DSA는 **정교한 희소 어텐션**을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함  
- 훈련 구성은 V3.1-Terminus와 동일하게 맞춰 **성능 비교의 신뢰성**을 확보함  
- 공공 벤치마크 결과:  
  - Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)  
  - Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)  
  - 전반적으로 **대등하거나 약간의 개선**이 확인됨  
  
### 오픈소스 커널  
- **TileLang**: 연구 목적의 가독성 높은 커널 예제 제공  
- **DeepGEMM**: 고성능 CUDA 커널 및 인덱서 로짓 커널 공개  
- **FlashMLA**: Sparse attention 커널 제공  
  
### 실행 방법  
- **HuggingFace**: 모델 변환 후 `torchrun`으로 인터랙티브 채팅 실행 가능  
- **SGLang**: Docker 이미지 제공 (H200, MI350, NPUs용)  
- **vLLM**: Day-0 지원, 공식 레시피 문서 제공  
  
### 라이선스  
- MIT License 기반 공개

## Comments


### Comment 44407

- Author: neo
- Created: 2025-09-30T09:39:25+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45412098) 
* 2차 효과로 사람들이 많이 언급하지 않는 부분이 가격임에 주목함, 모델의 빠른 확장과 함께 가격도 떨어지는 현상은 인상적임, 이는 AI의 보급과 모델 지능만큼 중요한 요소임, 근본적으로 가격 하락을 막을 법칙 같은 건 없다고 알고 있음, 현재는 무어의 법칙(또는 AI/Nvidia 칩 개발 주기)과 유사하게 하드웨어 세대마다 훨씬 더 빠르고 저렴해짐, 그럼 1년 뒤엔 ChatGPT-5를 반값에 쓸 수 있겠음 (물론 고성능 모델이 더 비싸긴 하지만 토큰 당 요금 기준으로 봤을 때 얘기임)

  * 가격 하락 폭을 상당히 과소평가한 것임, 예를 들어 Andreessen Horowitz의 연구에 따르면 GPT-3.5 등장 이후 2년 동안 추론 비용이 연간 10배씩 감소했다고 함 [참고](https://a16z.com/llmflation-llm-inference-cost/) 그래서 성장 둔화 시나리오여도 앞으로 5년 내에 1,000배 하락이 가능하다고 봄, 현재 가격 하락은 무어의 법칙과 직결되지 않고 모델 최적화, 고대역폭 메모리 공급망, 전력 인프라 투자 등 다양한 혁신 덕분임

* 중국 오픈소스 모델들이 계속 발전하고 저렴해지는 흐름을 반가워함, 이미 저렴한 모델인데 API 가격이 50% 추가 인하되어 Input $0.28/M, (캐시 적중 시 $0.028/M), Output $0.42/M에 제공됨

  * 가격이 인하되었다니 예전 가격은 얼마였는지 궁금해짐, 오히려 최근에 가격이 올랐었다는 인상도 있었음

  * 가격 인하는 좋지만 이 수준이 얼마나 유지될지 궁금해짐, 예전에는 매우 저렴하다가 한 번 크게 오르더니 지금 다시 내렸기 때문임

* [Deepseek v3.2-exp 모델 소개 링크](https://openrouter.ai/deepseek/deepseek-v3.2-exp)

  * 이상하게도 해당 모델은 "데이터로 학습"을 한다고 표시되어 있음 ("해당 제공업체는 프롬프트와 결과물을 신규 모델 학습에 활용할 수도 있음. 이 제공업체는 비활성화 상태지만 데이터 정책 변경 시 재활성화 가능"), 일반적으로 유료 모델은 입력 데이터를 학습에 쓰는 경우가 거의 없는데, Openrouter가 잘못 표시한 건지 Deepseek가 실제로 사용자 데이터를 학습에 사용하는 건지 궁금해짐

  * Open Router가 정말로 오픈소스인지 의문임, "메인" 레포는 아카이브 상태이고 작은 프로젝트들만 있음, 실제 오픈소스는 API 클라이언트 바인딩 뿐이고, 핵심 라우팅 서비스는 닫혀 있는 것 아닌지 궁금함

* 내가 이해한 게 맞는지 모르겠지만, 이 모델은 전체 어텐션 분포를 흉내 내도록 학습시키면서도 중요한 상위 k개(여기선 k=2048) 토큰만 필터링하여, 컨텍스트 창이 커져도 [query, key] 계산의 컴퓨팅 복잡도는 선형적으로 늘지 않고 일정하게 유지되는 것이 특징임(실제 그래프 상에서 보면 인덱서가 전체 컨텍스트를 대충 한 번 훑는 과정이 남아 있어서 O(L)이긴 함)

* 이런 "저렴한" 모델의 큰 문제는, 제공자가 캐싱을 지원하지 않으면 실제 활용 환경(특히 에이전트 워크플로)에서는 오히려 비용이 더 높아질 수 있다는 점임, 입력/출력 토큰 비용은 큰 의미 없고 캐시 적중분(재사용) 비용이 전체 토큰의 대부분을 차지함, 이럴 바엔 그냥 GPT-5 쓰는 게 더 싸거나 비슷한 비용에 더 강력한 모델을 쓸 수 있음

  * DeepSeek는 캐시를 지원하며, 캐시 적중시 비용이 캐시 미스의 10분의 1임, 구체적으로 캐시 적중 $0.028/M, 캐시 미스 $0.28/M, 출력 $0.42/M임 [참고](https://api-docs.deepseek.com/news/news250929)

  * 이 모델은 캐싱을 지원하는 것으로 알고 있었음, 가격 안내 페이지도 캐시 적중 시 입력 토큰이 $0.028임을 명시함

  * 심각한 문제라고 선언하면서 전제조건(IF)를 붙였음, DeepSeek API는 공식적으로 캐싱을 지원함, 문제를 없는 데서 만들지 말기 바람 [캐시 안내](https://api-docs.deepseek.com/guides/kv_cache)

* 벤치마크는 거의 그대로 두고 비용이 극적으로 줄어든 점이 놀라움

* 흥미로운 점은 여전히 모델 발전 속도가 빨라서 특정 모델 전용 하드웨어가 크게 각광받지 않고, 여전히 범용 플랫폼에서 주된 스케일링 이점이 발생하고 있다는 것임

  * 그래도 구글 TPU, Groq, Cerebras 같은 아키텍처 최적화 칩들도 언급할 필요가 있음, 이들은 완전한 전용은 아니지만 보다 일반적인 구조에서 최적화된 사례임

* Deep Sparse Attention이 코드와 같은 구조적, 장문 추론에 실질적 도움을 줄 수 있어 보임

* 정말 대단하다는 생각임, 실제로 미묘한 차이가 중요한 현실 세계 데이터에선 어떻게 동작하는지 궁금함, 그리고 128K 컨텍스트 윈도우보다 큰 상황에서도 테스트해본 적이 있는지 매우 궁금함

* Sparse attention이 실제 환경에 적용된 사례를 볼 수 있어 멋짐