DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개

(github.com/deepseek-ai)

2P by GN⁺ 2달전 | ★ favorite | 댓글 1개

V3.1-Terminus를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention(희소 어텐션 메커니즘)을 도입한 실험적 모델
Sparse Attention은 세밀한 단위의 희소 연산을 지원해, 훈련 및 추론 효율성을 대폭 개선하면서도 출력 품질은 기존과 유사한 수준을 유지함
주요 벤치마크에서 V3.1-Terminus와 성능이 유사하거나 일부 개선된 결과를 보였으며, 특히 코딩·수학 문제 해결 및 에이전트형 툴 사용 시 성과가 확인됨
연구·활용을 위해 TileLang, DeepGEMM, FlashMLA 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨
HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 효율적 트랜스포머 아키텍처 연구와 실무 적용의 기반이 될 전망임

소개

DeepSeek-V3.2-Exp는 V3.1-Terminus를 바탕으로 개발된 차세대 아키텍처 전 단계 모델임
핵심 특징은 긴 문맥에서 효율적인 추론과 학습을 가능케 하는 DeepSeek Sparse Attention(DSA) 적용
목표는 계산 효율성 개선과 확장된 텍스트 시퀀스 처리의 최적화

주요 성과

DSA는 정교한 희소 어텐션을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함
훈련 구성은 V3.1-Terminus와 동일하게 맞춰 성능 비교의 신뢰성을 확보함
공공 벤치마크 결과:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- 전반적으로 대등하거나 약간의 개선이 확인됨

오픈소스 커널

TileLang: 연구 목적의 가독성 높은 커널 예제 제공
DeepGEMM: 고성능 CUDA 커널 및 인덱서 로짓 커널 공개
FlashMLA: Sparse attention 커널 제공

실행 방법

HuggingFace: 모델 변환 후 torchrun으로 인터랙티브 채팅 실행 가능
SGLang: Docker 이미지 제공 (H200, MI350, NPUs용)
vLLM: Day-0 지원, 공식 레시피 문서 제공

라이선스

MIT License 기반 공개

▲

GN⁺ 2달전 [-]

Hacker News 의견

2차 효과로 사람들이 많이 언급하지 않는 부분이 가격임에 주목함, 모델의 빠른 확장과 함께 가격도 떨어지는 현상은 인상적임, 이는 AI의 보급과 모델 지능만큼 중요한 요소임, 근본적으로 가격 하락을 막을 법칙 같은 건 없다고 알고 있음, 현재는 무어의 법칙(또는 AI/Nvidia 칩 개발 주기)과 유사하게 하드웨어 세대마다 훨씬 더 빠르고 저렴해짐, 그럼 1년 뒤엔 ChatGPT-5를 반값에 쓸 수 있겠음 (물론 고성능 모델이 더 비싸긴 하지만 토큰 당 요금 기준으로 봤을 때 얘기임)
- 가격 하락 폭을 상당히 과소평가한 것임, 예를 들어 Andreessen Horowitz의 연구에 따르면 GPT-3.5 등장 이후 2년 동안 추론 비용이 연간 10배씩 감소했다고 함 참고 그래서 성장 둔화 시나리오여도 앞으로 5년 내에 1,000배 하락이 가능하다고 봄, 현재 가격 하락은 무어의 법칙과 직결되지 않고 모델 최적화, 고대역폭 메모리 공급망, 전력 인프라 투자 등 다양한 혁신 덕분임
중국 오픈소스 모델들이 계속 발전하고 저렴해지는 흐름을 반가워함, 이미 저렴한 모델인데 API 가격이 50% 추가 인하되어 Input $0.28/M, (캐시 적중 시 $0.028/M), Output $0.42/M에 제공됨
- 가격이 인하되었다니 예전 가격은 얼마였는지 궁금해짐, 오히려 최근에 가격이 올랐었다는 인상도 있었음
- 가격 인하는 좋지만 이 수준이 얼마나 유지될지 궁금해짐, 예전에는 매우 저렴하다가 한 번 크게 오르더니 지금 다시 내렸기 때문임
Deepseek v3.2-exp 모델 소개 링크
- 이상하게도 해당 모델은 "데이터로 학습"을 한다고 표시되어 있음 ("해당 제공업체는 프롬프트와 결과물을 신규 모델 학습에 활용할 수도 있음. 이 제공업체는 비활성화 상태지만 데이터 정책 변경 시 재활성화 가능"), 일반적으로 유료 모델은 입력 데이터를 학습에 쓰는 경우가 거의 없는데, Openrouter가 잘못 표시한 건지 Deepseek가 실제로 사용자 데이터를 학습에 사용하는 건지 궁금해짐
- Open Router가 정말로 오픈소스인지 의문임, "메인" 레포는 아카이브 상태이고 작은 프로젝트들만 있음, 실제 오픈소스는 API 클라이언트 바인딩 뿐이고, 핵심 라우팅 서비스는 닫혀 있는 것 아닌지 궁금함
내가 이해한 게 맞는지 모르겠지만, 이 모델은 전체 어텐션 분포를 흉내 내도록 학습시키면서도 중요한 상위 k개(여기선 k=2048) 토큰만 필터링하여, 컨텍스트 창이 커져도 [query, key] 계산의 컴퓨팅 복잡도는 선형적으로 늘지 않고 일정하게 유지되는 것이 특징임(실제 그래프 상에서 보면 인덱서가 전체 컨텍스트를 대충 한 번 훑는 과정이 남아 있어서 O(L)이긴 함)
이런 "저렴한" 모델의 큰 문제는, 제공자가 캐싱을 지원하지 않으면 실제 활용 환경(특히 에이전트 워크플로)에서는 오히려 비용이 더 높아질 수 있다는 점임, 입력/출력 토큰 비용은 큰 의미 없고 캐시 적중분(재사용) 비용이 전체 토큰의 대부분을 차지함, 이럴 바엔 그냥 GPT-5 쓰는 게 더 싸거나 비슷한 비용에 더 강력한 모델을 쓸 수 있음
- DeepSeek는 캐시를 지원하며, 캐시 적중시 비용이 캐시 미스의 10분의 1임, 구체적으로 캐시 적중 $0.028/M, 캐시 미스 $0.28/M, 출력 $0.42/M임 참고
- 이 모델은 캐싱을 지원하는 것으로 알고 있었음, 가격 안내 페이지도 캐시 적중 시 입력 토큰이 $0.028임을 명시함
- 심각한 문제라고 선언하면서 전제조건(IF)를 붙였음, DeepSeek API는 공식적으로 캐싱을 지원함, 문제를 없는 데서 만들지 말기 바람 캐시 안내
벤치마크는 거의 그대로 두고 비용이 극적으로 줄어든 점이 놀라움
흥미로운 점은 여전히 모델 발전 속도가 빨라서 특정 모델 전용 하드웨어가 크게 각광받지 않고, 여전히 범용 플랫폼에서 주된 스케일링 이점이 발생하고 있다는 것임
- 그래도 구글 TPU, Groq, Cerebras 같은 아키텍처 최적화 칩들도 언급할 필요가 있음, 이들은 완전한 전용은 아니지만 보다 일반적인 구조에서 최적화된 사례임
Deep Sparse Attention이 코드와 같은 구조적, 장문 추론에 실질적 도움을 줄 수 있어 보임
정말 대단하다는 생각임, 실제로 미묘한 차이가 중요한 현실 세계 데이터에선 어떻게 동작하는지 궁금함, 그리고 128K 컨텍스트 윈도우보다 큰 상황에서도 테스트해본 적이 있는지 매우 궁금함
Sparse attention이 실제 환경에 적용된 사례를 볼 수 있어 멋짐

답변달기