2P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • V3.1-Terminus를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention(희소 어텐션 메커니즘)을 도입한 실험적 모델
  • Sparse Attention은 세밀한 단위의 희소 연산을 지원해, 훈련 및 추론 효율성을 대폭 개선하면서도 출력 품질은 기존과 유사한 수준을 유지함
  • 주요 벤치마크에서 V3.1-Terminus와 성능이 유사하거나 일부 개선된 결과를 보였으며, 특히 코딩·수학 문제 해결 및 에이전트형 툴 사용 시 성과가 확인됨
  • 연구·활용을 위해 TileLang, DeepGEMM, FlashMLA 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨
  • HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 효율적 트랜스포머 아키텍처 연구와 실무 적용의 기반이 될 전망임

소개

  • DeepSeek-V3.2-Exp는 V3.1-Terminus를 바탕으로 개발된 차세대 아키텍처 전 단계 모델
  • 핵심 특징은 긴 문맥에서 효율적인 추론과 학습을 가능케 하는 DeepSeek Sparse Attention(DSA) 적용
  • 목표는 계산 효율성 개선확장된 텍스트 시퀀스 처리의 최적화

주요 성과

  • DSA는 정교한 희소 어텐션을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함
  • 훈련 구성은 V3.1-Terminus와 동일하게 맞춰 성능 비교의 신뢰성을 확보함
  • 공공 벤치마크 결과:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • 전반적으로 대등하거나 약간의 개선이 확인됨

오픈소스 커널

  • TileLang: 연구 목적의 가독성 높은 커널 예제 제공
  • DeepGEMM: 고성능 CUDA 커널 및 인덱서 로짓 커널 공개
  • FlashMLA: Sparse attention 커널 제공

실행 방법

  • HuggingFace: 모델 변환 후 torchrun으로 인터랙티브 채팅 실행 가능
  • SGLang: Docker 이미지 제공 (H200, MI350, NPUs용)
  • vLLM: Day-0 지원, 공식 레시피 문서 제공

라이선스

  • MIT License 기반 공개
Hacker News 의견
  • 2차 효과로 사람들이 많이 언급하지 않는 부분이 가격임에 주목함, 모델의 빠른 확장과 함께 가격도 떨어지는 현상은 인상적임, 이는 AI의 보급과 모델 지능만큼 중요한 요소임, 근본적으로 가격 하락을 막을 법칙 같은 건 없다고 알고 있음, 현재는 무어의 법칙(또는 AI/Nvidia 칩 개발 주기)과 유사하게 하드웨어 세대마다 훨씬 더 빠르고 저렴해짐, 그럼 1년 뒤엔 ChatGPT-5를 반값에 쓸 수 있겠음 (물론 고성능 모델이 더 비싸긴 하지만 토큰 당 요금 기준으로 봤을 때 얘기임)

    • 가격 하락 폭을 상당히 과소평가한 것임, 예를 들어 Andreessen Horowitz의 연구에 따르면 GPT-3.5 등장 이후 2년 동안 추론 비용이 연간 10배씩 감소했다고 함 참고 그래서 성장 둔화 시나리오여도 앞으로 5년 내에 1,000배 하락이 가능하다고 봄, 현재 가격 하락은 무어의 법칙과 직결되지 않고 모델 최적화, 고대역폭 메모리 공급망, 전력 인프라 투자 등 다양한 혁신 덕분임
  • 중국 오픈소스 모델들이 계속 발전하고 저렴해지는 흐름을 반가워함, 이미 저렴한 모델인데 API 가격이 50% 추가 인하되어 Input $0.28/M, (캐시 적중 시 $0.028/M), Output $0.42/M에 제공됨

    • 가격이 인하되었다니 예전 가격은 얼마였는지 궁금해짐, 오히려 최근에 가격이 올랐었다는 인상도 있었음

    • 가격 인하는 좋지만 이 수준이 얼마나 유지될지 궁금해짐, 예전에는 매우 저렴하다가 한 번 크게 오르더니 지금 다시 내렸기 때문임

  • Deepseek v3.2-exp 모델 소개 링크

    • 이상하게도 해당 모델은 "데이터로 학습"을 한다고 표시되어 있음 ("해당 제공업체는 프롬프트와 결과물을 신규 모델 학습에 활용할 수도 있음. 이 제공업체는 비활성화 상태지만 데이터 정책 변경 시 재활성화 가능"), 일반적으로 유료 모델은 입력 데이터를 학습에 쓰는 경우가 거의 없는데, Openrouter가 잘못 표시한 건지 Deepseek가 실제로 사용자 데이터를 학습에 사용하는 건지 궁금해짐

    • Open Router가 정말로 오픈소스인지 의문임, "메인" 레포는 아카이브 상태이고 작은 프로젝트들만 있음, 실제 오픈소스는 API 클라이언트 바인딩 뿐이고, 핵심 라우팅 서비스는 닫혀 있는 것 아닌지 궁금함

  • 내가 이해한 게 맞는지 모르겠지만, 이 모델은 전체 어텐션 분포를 흉내 내도록 학습시키면서도 중요한 상위 k개(여기선 k=2048) 토큰만 필터링하여, 컨텍스트 창이 커져도 [query, key] 계산의 컴퓨팅 복잡도는 선형적으로 늘지 않고 일정하게 유지되는 것이 특징임(실제 그래프 상에서 보면 인덱서가 전체 컨텍스트를 대충 한 번 훑는 과정이 남아 있어서 O(L)이긴 함)

  • 이런 "저렴한" 모델의 큰 문제는, 제공자가 캐싱을 지원하지 않으면 실제 활용 환경(특히 에이전트 워크플로)에서는 오히려 비용이 더 높아질 수 있다는 점임, 입력/출력 토큰 비용은 큰 의미 없고 캐시 적중분(재사용) 비용이 전체 토큰의 대부분을 차지함, 이럴 바엔 그냥 GPT-5 쓰는 게 더 싸거나 비슷한 비용에 더 강력한 모델을 쓸 수 있음

    • DeepSeek는 캐시를 지원하며, 캐시 적중시 비용이 캐시 미스의 10분의 1임, 구체적으로 캐시 적중 $0.028/M, 캐시 미스 $0.28/M, 출력 $0.42/M임 참고

    • 이 모델은 캐싱을 지원하는 것으로 알고 있었음, 가격 안내 페이지도 캐시 적중 시 입력 토큰이 $0.028임을 명시함

    • 심각한 문제라고 선언하면서 전제조건(IF)를 붙였음, DeepSeek API는 공식적으로 캐싱을 지원함, 문제를 없는 데서 만들지 말기 바람 캐시 안내

  • 벤치마크는 거의 그대로 두고 비용이 극적으로 줄어든 점이 놀라움

  • 흥미로운 점은 여전히 모델 발전 속도가 빨라서 특정 모델 전용 하드웨어가 크게 각광받지 않고, 여전히 범용 플랫폼에서 주된 스케일링 이점이 발생하고 있다는 것임

    • 그래도 구글 TPU, Groq, Cerebras 같은 아키텍처 최적화 칩들도 언급할 필요가 있음, 이들은 완전한 전용은 아니지만 보다 일반적인 구조에서 최적화된 사례임
  • Deep Sparse Attention이 코드와 같은 구조적, 장문 추론에 실질적 도움을 줄 수 있어 보임

  • 정말 대단하다는 생각임, 실제로 미묘한 차이가 중요한 현실 세계 데이터에선 어떻게 동작하는지 궁금함, 그리고 128K 컨텍스트 윈도우보다 큰 상황에서도 테스트해본 적이 있는지 매우 궁금함

  • Sparse attention이 실제 환경에 적용된 사례를 볼 수 있어 멋짐