# DSpark: Speculative decoding을 활용한 LLM 추론 가속화 [pdf]

> Clean Markdown view of GeekNews topic #30902. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30902](https://news.hada.io/topic?id=30902)
- GeekNews Markdown: [https://news.hada.io/topic/30902.md](https://news.hada.io/topic/30902.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-28T09:35:01+09:00
- Updated: 2026-06-28T09:35:01+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf)
- Points: 1
- Comments: 1

## Topic Body

- DSpark: 준자기회귀(semi-autoregressive) 생성과 신뢰도 스케줄링을 결합한 추측 디코딩(speculative decoding) 프레임워크  
- **병렬 드래프터(parallel drafter)** 가 한 번의 순전파로 긴 토큰 블록을 제안하지만 토큰 간 의존성 부재로 후반부 **수락률 급감(acceptance decay)** 이 발생하는 문제를 **준자기회귀 구조**와 **부하 인지 검증**으로 동시 해결  
- 무거운 **병렬 백본**에 경량 **순차 모듈**을 결합해 블록 내부 의존성을 주입, 드래프트 속도를 유지하면서 **접미부 붕괴(suffix decay)** 완화  
- **신뢰도 헤드(confidence head)** 가 위치별 접두부 생존 확률을 추정하고, **하드웨어 인지 스케줄러**가 엔진 처리량 곡선에 맞춰 요청마다 **검증 길이**를 동적으로 조정  
- 오프라인 벤치마크에서 자기회귀 baseline(Eagle3) 및 병렬 baseline(DFlash) 대비 **수락 길이(accepted length)** 일관 향상, DeepSeek-V4 실서비스 배포 시 검증 낭비 억제  
- 기존 production baseline인 **MTP-1** 대비 동일 처리량에서 사용자별 생성 속도 **60–85% 가속**, 엄격한 상호작용 제약 하에서 도달 불가했던 성능 구간을 열어 **Pareto frontier 확장**  
  
---  
  
### 문제 정의 — 병렬 드래프터의 두 가지 병목  
  
- LLM은 토큰을 자기회귀적으로 생성, 각 토큰마다 선행 토큰 전체에 조건화된 순전파가 필요해 추론 지연이 출력 길이에 비례, 낮은 GPU 활용도와 높은 대기 시간이 production 서빙의 주요 병목으로 작용  
- 추측 디코딩은 경량 draft 모델이 후보 블록을 제안하고 target 모델이 단일 순전파로 검증, rejection sampling으로 target 분포와 일치하는 최장 접두부를 수락하므로 **품질 손실 없이** 가속  
- ## 자기회귀 드래프터의 한계  
  - 각 위치를 이전 토큰에 조건화해 강한 모델링 능력을 가지나, 드래프팅 비용이 블록 크기에 선형 비례(𝑇draft ∝ 𝛾)해 **작은 블록**과 **얕은 구조**로 제약  
- ## 병렬 드래프터의 한계  
  - 모든 위치를 한 번에 생성해 드래프트 지연이 블록 크기와 거의 무관, 큰 블록(예: 𝛾=16) 사용 가능  
  - 각 위치를 독립적으로 예측해 토큰 간 의존성 모델링 불가, **다중 모드 충돌(multi-modal collision)** 과 후반부 급격한 수락률 저하 유발  
  - 긴 블록을 무분별하게 전부 검증하면 처리량 저하, 특히 고동시성 환경에서 거부 위험이 높은 토큰이 배치 용량을 점유  
  - 이상적 검증 길이는 두 축에서 변동 — 데이터 측면(코드 등 구조화 요청은 높은 수락률, 개방형 채팅은 낮음)과 시스템 측면(저부하 시 추가 검증 거의 무료, 고부하 시 다른 활성 요청 용량 잠식)  
  
### 아키텍처 — 두 개의 상호보완 구성요소  
  
- 토큰당 지연은 𝐿 = (𝑇draft + 𝑇verify)/𝜏, 가속은 𝑇draft 감소·𝜏 증가·유효 𝑇verify 감소의 세 레버로 환원  
- 디코딩 사이클: 프롬프트 ABC에서 target 모델이 다음 토큰 D 생성(앵커 역할) → 병렬 백본과 순차 헤드가 드래프트 EFGH와 신뢰도 점수 c1–c4 생성 → 스케줄러가 접두부 EFG 유지·저신뢰 토큰 H 제거 → target 모델이 병렬 검증, E·F 수락 G 거부 시 보정 토큰 G* 생성  
  
- ## 준자기회귀 생성 (Semi-Autoregressive Generation)  
  - 병렬 드래프터는 “of course”/“no problem” 같은 다중 연속 가능성에서 “of problem” 같은 비일관 조합을 생성, 각 위치가 실제 샘플된 선행 토큰이 아닌 모든 가능 선행 토큰에 대해 marginalize하기 때문  
  - **병렬 단계(Parallel stage)**: 병렬 백본(DFlash 채택)이 전체 블록에 단일 순전파, 은닉 상태와 기본 로짓 생성, 앵커 자체를 첫 예측 위치로 처리해 𝛾개 입력으로 𝛾개 로짓 산출, 드래프트 연산 절감  
  - **순차 단계(Sequential stage)**: 기본 로짓에 접두부 의존 전이 편향 𝐵𝑘를 더해 각 위치가 블록 내 이전 샘플 토큰에 조건화, 자기회귀 분해로 인과적 블록 분포 유도, 순차 처리이므로 병렬 단계보다 충분히 경량(𝑇sequential ≪ 𝑇parallel)이어야 함  
    - **Markov 헤드**: 직전 토큰만 의존하는 1차 전이로 단순화, 𝑉×𝑉 전체 행렬을 저랭크 분해 𝐵 = 𝑊1𝑊2(기본 𝑟=256)로 근사, 저장과 단계당 연산 최소화, “of” 샘플 후 “course” 강화·“problem” 억제로 교차 모드 충돌 완화  
    - **RNN 헤드**: 순환 상태 𝑠𝑘로 블록 내 전체 접두부 이력 축적, 게이트 갱신으로 직전 토큰 이전 정보까지 접근, 단 구현 복잡도가 높고 배포 특성이 불리  
  
- ## 신뢰도 스케줄링 검증 (Confidence-Scheduled Verification)  
  - 드래프트 수락률이 도메인별로 변동(코드 높음, 개방형 채팅 낮음)하고, 추가 토큰 검증 비용이 엔진 부하에 따라 달라지므로 양의 기대 수익 토큰에만 target 연산을 라우팅하는 통합 메커니즘 필요  
  - **신뢰도 헤드(Confidence Head)**: 위치 𝑘마다 스칼라 추정 𝑐𝑘 ∈ (0,1) 출력, 선행 토큰 전부 수락 조건에서 위치 𝑘 토큰이 검증을 통과할 조건부 확률 모델링, 경량 선형 투영 + sigmoid 구조  
    - 분석적 단계별 수락률 𝑐*𝑘 = 1 − ½‖𝑝𝑑𝑘 − 𝑝𝑡𝑘‖1(드래프트·target 분포 간 total variation 거리)로 지도 학습  
  - **사후 보정 — Sequential Temperature Scaling (STS)**: 하드웨어 인지 스케줄링이 누적 수락 확률의 절대값을 요구하나 신경망 신뢰도는 과신(overconfident) 경향, 각 𝑐𝑖가 조건부 확률이므로 접두부 누적곱으로 인수분해, held-out 검증셋에서 좌→우로 ECE를 최소화하는 1D grid search 수행, 순서 보존 변환이라 토큰 순위는 유지  
  - **하드웨어 인지 접두부 스케줄러(Hardware-Aware Prefix Scheduler)**: 검증 길이 선택을 전역 처리량 최대화 문제로 정식화, 활성 요청 𝑅개에 대해 SPS(𝐵)(엔진 초기화 시 1회 프로파일링한 비용표)를 활용, 𝛩 = 𝜏·SPS(𝐵) 최대화  
    - 생존 확률 𝑎𝑟,𝑗가 𝑗에 대해 단조 비증가이므로 전역 정렬·탐욕적 선택이 블록 내 접두부 의존성을 자연히 준수, 𝑂(1) 비용표 조회로 점진 admit  
    - 무손실 추측 디코딩은 비예견(non-anticipating) 속성을 요구, Markov 특징이 이전 샘플 토큰에 의존해 사후 전역 탐색은 𝑥𝑟,𝑘 정보를 누설하고 선택 편향 유발  
    - **조기 중단(early-stopping)** 메커니즘으로 처리량이 떨어질 때 즉시 중단, admit 결정이 해당 단계까지 처리된 접두부에만 의존하도록 인과성 강제, 목적 𝛩가 단봉(unimodal)일 때만 전역 최댓값 보장  
  
### 학습 (Training)  
  
- target 시퀀스에서 다수 앵커 위치를 무작위 샘플해 𝛾토큰 블록을 학습 데이터로 구성  
- target 모델은 전 과정 고정(frozen), draft 모델은 임베딩층·LM head를 공유하며 고정, 백본 드래프터·순차 블록·신뢰도 헤드만 갱신  
- 학습 목적은 세 항의 가중합 — 교차 엔트로피 손실 Lce, 분포 정합 손실 Ltv, 신뢰도 손실 Lconf  
  - 모든 항은 위치 가중치 𝑤𝑘 = exp(−(𝑘−1)/𝛾)로 가중, 접두부 기반 검증에서 기대 수락 길이에 더 기여하는 초반 위치 강조  
  - Ltv는 total variation 거리를 패널티화, 단계별 수락 확률이 1 − ½‖𝑝𝑑 − 𝑝𝑡‖1과 같으므로 Ltv 최소화가 곧 기대 수락률 최대화  
  - 기본 가중치 𝛼ce = 0.1, 𝛼tv = 0.9, 𝛼conf = 1.0  
  
### 실험 — 오프라인 벤치마크  
  
- ## 설정  
  - target 모델: Qwen3-{4B, 8B, 14B}, Gemma4-12B / 비교 드래프터: SOTA 병렬 드래프터 DFlash, 자기회귀 드래프터 Eagle3  
  - 동일 프레임워크·데이터로 전체 재학습, Eagle3의 TTT horizon(7)을 DFlash·DSpark의 블록 크기(7)에 정렬, draft 층수 Eagle3은 1·DSpark과 DFlash는 5  
  - 학습 데이터: **Open-PerfectBlend** 130만 샘플(chat 17.6%, math 39.4%, code 38.9%, instruction-following 4.1%), 프롬프트만 사용하고 응답은 각 target 모델이 재생성, 10 epoch 학습  
  - 평가 도메인: 수학(GSM8K, MATH500, AIME25), 코드(MBPP, HumanEval, LiveCodeBench), 일상 채팅(MT-Bench, Alpaca, Arena-Hard), 샘플링 온도 1.0, 라운드당 수락 길이 𝜏 보고  
- ## 주요 결과  
  - 오프라인 평가는 신뢰도 스케줄러를 비활성화해 고정 블록으로 순수 드래프트 품질만 분리  
  - Qwen3-4B·8B·14B에서 Eagle3 대비 매크로 평균 수락 길이 **30.9%·26.7%·30.0% 향상**, DFlash 대비 **16.3%·18.4%·18.3% 향상**, Gemma4-12B에서도 일관 이득으로 모델 패밀리 간 일반화 확인  
  - 구조화 과제의 수락 길이가 개방형 채팅보다 높음(Qwen3-4B 기준 수학 5.57·코드 5.12 vs 채팅 3.49), 데이터 예측성 분산이 정적 검증 길이의 낭비를 유발해 신뢰도 스케줄링의 동기로 작용  
  
### 실험 분석  
  
- ## 병렬 생성이 자기회귀를 능가하는 이유  
  - 병렬·준자기회귀 드래프터가 완전 자기회귀 Eagle3보다 긴 수락 길이를 내는 반직관적 관찰, 위치별 조건부 수락률(앞 위치 전부 수락된 경우만 분모로 집계)로 분석  
  - **위치 1의 용량 우위**: 첫 위치는 target 문맥에만 의존, Eagle3는 𝑂(𝛾) 지연으로 얕은 망에 제약되나 𝑂(1) 병렬 드래프터는 깊은 망 사용 가능, DFlash가 Eagle3보다 높게 시작(수학 0.88 vs 0.81, 채팅 0.72 vs 0.53), 첫 토큰 거부가 블록 전체를 무효화하므로 초기 우위가 최종 수락 길이에 큰 영향  
  - **후반 위치의 독립성 한계**: 위치 2–7에서 Eagle3는 조건부 확실성을 활용해 유지·상승(채팅 0.53→0.74), DFlash는 급격히 저하(코드 0.87→0.78, 채팅 0.72→0.63), 다중 모드 충돌로 비일관 접미부 생성  
  - **준자기회귀의 접미부 붕괴 완화**: DSpark은 깊은 병렬 백본의 높은 초기 수락(수학 0.93 시작)을 계승하면서 경량 순차 헤드로 후반 붕괴를 억제, 블록 전체에서 높고 안정적인 조건부 수락률 유지  
- ## 적은 자기회귀로도 큰 효과  
  - **드래프터 깊이**: 블록 크기 7 고정, DSpark 층수 1→5 증가 시 성능 단조 향상, 1→2층에서 한계 이득 최대, **2층 DSpark이 5층 DFlash를 전 도메인에서 능가**, 순차 헤드의 파라미터 효율성 입증  
  - **제안 길이**: 깊이 5 고정, 드래프트 길이 {4,8,12,16} 확장 시 DSpark이 매 길이에서 DFlash 능가, 𝛾 증가에 따라 격차 확대(𝛾=7에서 수학 16%·코드 15%·채팅 18%, 𝛾=15에서 30%·26%·22%), RNN 헤드는 긴 길이에서 소폭 추가 이득에 그쳐 Markov 헤드를 기본 채택  
  - **지연 오버헤드**: 배치 128·문맥 길이 {512,1024,2048,4096} 평균 기준, 순차 블록 지연이 무시 가능, 드래프트 길이 4→16 확장 시 전체 라운드 지연에 0.2–1.3%만 추가하면서 최대 30% 수락 길이 향상  
- ## 신뢰도 헤드의 역할 — 더 길게가 아니라 더 똑똑하게 검증  
  - Qwen3-4B로 정적 임계값 스윕 진단, 임계값 상승 시 거부 토큰 필터링으로 수락률 상승, 채팅에서 효과 가장 큼(45.7%→95.7%), 수학(76.9%→92.5%)·코드(67.6%→92.0%)는 완만  
  - 정적 임계값은 시스템 부하를 무시해 동적 서빙에서 비최적, 신뢰도 모델은 강한 판별력(ROC-AUC 0.81–0.90) 보유하나 과신(ECE 3–8%), STS 적용 후 평균 ECE를 약 1%로 낮춰 신뢰할 생존 추정 확보  
  
### 실서비스 배포  
  
- ## 확장 가능 학습  
  - DeepSeek-V4-Flash·Pro preview와 공동 배포, 병렬 백본은 mHC 적용 MoE 3개 층과 sliding window attention 128로 구성, 최대 블록 크기 𝛾=5·Markov 헤드 사용, 신뢰도 헤드는 end-to-end 학습 후 STS 보정  
  - **은닉 상태 통신(Hidden state communication)**: 전체 어휘 로짓(𝑉≈10⁵) 전송 대신 LM head 직전 은닉 상태만 통신하고 샘플 위치에 한해 LM head를 draft 워커에서 로컬 실행, 토큰당 통신 복잡도를 𝑂(𝑑)로 축소  
  - **앵커 한정 시퀀스 패킹(Anchor-bounded sequence packing)**: 고정 수의 draft 앵커를 샘플해 고립 예측 블록을 밀집 배치로 패킹, 토큰 단위 attention 인덱스로 다중 독립 시퀀스 간 인과 마스킹 유지하며 padding 오버헤드 회피  
- ## 스케줄러 실전 적용  
  - 두 가지 충돌 — 알고리듬은 매끄러운 단봉 용량 곡선을 가정하나 실제 SPS(𝐵)는 이산적·계단형 저하, 단계별 동적 토큰 스케줄링이 연속 CUDA graph replay·Zero-Overhead Scheduling(ZOS)과 상충  
  - **비동기 스케줄링**으로 적응, ZOS가 현재 단계 완료 전 다음 배치 크기를 요구하므로 두 단계 전 신뢰도 출력으로 검증 용량 근사, 현재 단계 후보는 최신 누적 신뢰도로 정렬하고 과거 예측은 동적 절단 길이(𝐾) 결정에만 사용, 동적 top-𝐾 선택으로 캐스팅  
  - 조기 중단을 제거해 제약 없는 전역 탐색 활성화, 두 단계 전 이력만 평가하므로 현재 토큰 𝑥𝑟,𝑘 실현과 격리되어 인과 장벽 형성, 하드웨어 절벽을 넘는 물리 처리량 최대화와 정확한 target 분포 보존 양립  
- ## 고처리량·저지연 추론  
  - production 서빙은 요청별 지연과 총 처리량을 동시 최적화, 본 배포에서 KV-cache 용량·사용자 트래픽 제약으로 유효 배치 크기가 GPU 포화 임계 미만에 머물러 두 목표가 경쟁이 아닌 높은 상관 관계로 단순화  
  - 가변 길이 쿼리 지원이 과제, 고정 길이 디코드 커널에서 단순 처리 시 padding·불균등 부하로 GPU 저활용, 모든 요청 토큰을 평탄화해 독립 요소로 처리하고 시퀀스 내부 의존성은 sparse attention의 marker tensor로 전달, DeepSeek-V4에서 index-attention·compress 커널만 수정해 가변 길이 라우팅 지원  
- ## 실사용자 트래픽 성능  
  - DSpark-5(𝛾=5)를 MTP-1 baseline과 V4-Flash·Pro production 엔진에서 비교, MTP-1은 정적 다중 토큰 드래프터(MTP-3/5)가 고동시성에서 처리량을 저하시키기에 유지된 단일 토큰 설정이었고 DeepSeek-V4-preview 출시 2주 후 DSpark으로 대체  
  - **V4-Flash**: 80 tok/s/user SLA에서 처리량 51% 향상, 120 tok/s/user에서 MTP-1이 운영 한계 근접해 명목상 661% 우위(절대 배수가 아닌 상호작용 frontier 확장의 증거로 해석), 동일 처리량에서 사용자별 생성 60–85% 가속  
  - **V4-Pro**: 35 tok/s/user에서 52% 향상, 50 tok/s/user에서 명목상 406% 우위, 동일 용량에서 57–78% 가속, 전반적으로 throughput–interactivity frontier를 바깥으로 이동  
  - **부하 적응 동작**: 중간 동시성(V4-Flash 200·V4-Pro 150 요청 미만)에서 스케줄러가 MTP-1 정적 2토큰을 요청당 약 4–6토큰으로 확장해 순전파당 수락 토큰 증가, 동시성 포화 시 검증 길이를 부드럽게 축소해 저신뢰 토큰이 배치 용량을 잠식하기 전에 가지치기  
- ## 한계  
  - 접두부 스케줄러가 target 검증 낭비를 최소화하나 병렬 백본의 초기 𝛾토큰 블록 생성에 드는 고정 드래프트 비용은 존재, 본질적으로 수락률이 낮은 복잡 쿼리에서는 이 선행 연산이 회수 불가  
  - 향후 draft 모델 내 난이도 인지 조기 종료(difficulty-aware early exiting)로 해당 요청이 전체 블록 생성을 우회하도록 개선 가능  
  
### 결론  
  
- 구조적 측면에서 무거운 병렬 백본과 경량 순차 헤드를 결합한 준자기회귀 패러다임으로 독립 병렬 드래프터의 급격한 접미부 붕괴 완화  
- 시스템 측면에서 검증 길이 선택을 전역 처리량 최대화 문제로 정식화, 보정된 생존 확률과 실시간 엔진 부하 기반 하드웨어 인지 접두부 스케줄러로 검증 예산을 동적 조정  
- 광범위한 오프라인 평가에서 SOTA 자기회귀·병렬 baseline을 능가, DeepSeek-V4 실배포에서 고부하 동시성 유지·사용자별 생성 가속·LLM 서빙 Pareto frontier 확장으로 실용 가치 입증

## Comments



### Comment 60552

- Author: neo
- Created: 2026-06-28T09:35:03+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48696585) 
- DeepSeek는 한계를 넓히는 데서 그치지 않고, 성능 향상을 어떻게 달성했는지 설명하는 **훌륭한 논문**까지 공개하고 있음  
  안타깝게도 미국 연구소들은 더 이상 이런 공개를 잘 하지 않고, 지금 AI에서 가장 흥미로운 작업은 중국 연구소들이 하고 있는 듯함
  - Google도 여전히 **LLM 아키텍처 연구**를 많이 공개하고 있음  
    2022년에 LLM의 추측 디코딩을 소개했고[1], 올해는 Gemma 4 모델에서 추측 디코딩을 수행하는 코드도 공개함[2]
    
    [1] [https://arxiv.org/abs/2211.17192](<https://arxiv.org/abs/2211.17192>)
    
    [2] [https://github.com/google-gemma/cookbook/blob/main/docs/mtp/...](<https://github.com/google-gemma/cookbook/blob/main/docs/mtp/mtp.ipynb>)
  - 미국 AI 회사들은 막대한 투자금을 책임져야 하니, 평가가치를 정당화할 **마법 같은 해자**를 찾으려는 것 같음  
    이런 최적화를 공개하면 경쟁 우위가 상당히 줄어들 것임
  - 어쩌면 필요에 의한 공개일 수도 있음  
    미국 연구소들이 최전선에서 길을 개척하고 있으니, DeepSeek가 가진 것을 오픈소스로 공개해 **경쟁장을 평평하게** 만들려는 것 같다는 추측임
  - DeepSeek는 미국 연구소들이 투자자에게 돈을 벌어주기 위해 의존하는 **성능 향상분을 상품화**하고 있음
  - 이제 서구권도 중국인을 “독재 아래의 아주 나쁜 사람들”로만 보는 인식을 버릴 때가 됨

- Hugging Face 모델이 이미 올라와 있고, 원래 모델에 **추측 디코딩 모듈**이 내장된 형태로 보이는데 꽤 멋짐
  
  Flash: [https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark](<https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark>)
  
  Pro: [https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark](<https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark>)
  
  로컬 추론용 DwarfStar에도 들어갈지 기대됨  
  antirez가 2비트 양자화를 공개한 뒤로 Flash 모델을 많이 써왔음
  - Qwen 27B에도 이게 적용될 가능성이 있을까?

- 지금 느낌으로는 DeepSeek가 단순히 **벤치마크 1위**를 노리기보다 실제로 혁신하려는 거의 유일한 AI 회사 같음  
  OpenAI, Anthropic, Google 같은 곳은 계속 혁신하기보다 서로 경쟁하는 데 더 치중하는 듯함
  - Moonshot(Kimi 개발사)과 Z.ai(GLM 개발사) 같은 다른 **중국 연구소**도 포함해야 한다고 봄  
    이들도 혁신하고 있고 연구를 계속 공개적으로 공유하고 있음  
    Moonshot 창업자는 Kimi를 지탱하는 기법을 설명하는 40분짜리 영상을 Twitter에 올리기도 한 것으로 알고 있음
  - 미국의 많은 회사들은 오래전부터 수단이 무엇이든 **사용자를 붙잡는 것**을 전략으로 삼아왔음  
    품질과 혁신은 두 번째 요소이고, 시장을 장악하고 사용자를 가둔 뒤 규제와 로비에 영향력을 행사해 힘을 유지하려 함
  - 그 회사들도 혁신을 통해 서로 경쟁하고 있음  
    혁신은 고객에게 더 큰 효용을 주지만, 기술은 공개되지 않을 뿐임  
    영업비밀은 이유가 있어서 비밀임
    
    DeepSeek가 “가장 혁신적”으로 보이는 이유는 바깥에서 관찰 가능한 것이 그것이기 때문일 수 있음  
    모두가 대중에게 사진을 공개하지 않는다고 해서, 공개된 모델들이 인구 전체에서 가장 예쁘다고 결론 내리는 것과 비슷한 착각임
  - 대형 연구소들은 이미 최소 1년 전부터 이런 걸 해오고 있었음
  - Qwen도 마찬가지임

- DeepSeek v4 pro를 한 달째 Kilo Code에서 쓰고 있는데 훌륭함  
  빠르고 안정적이고 **컨텍스트 창**이 크며 정말 저렴함  
  이번 달에 토큰 15억 개를 썼는데 40달러가 들었고, 대부분 캐시된 것이긴 해도 여전히 싸다
  - omp에서 DeepSeek를 task와 quicktask 에이전트로, Sonnet을 나머지 용도로 쓰고 있음  
    AI 지출이 크게 줄어서 하루 40달러에서 **하루 10달러**로 내려감
  - 어느 제공자를 썼는지 궁금함  
    OpenRouter에서는 40달러를 금방 썼음  
    왕복 대화가 많지 않았고 컨텍스트는 약 30만, 출력은 1만5천 줄 정도였음  
    opencode를 쓰고 있었는데 전체 토큰 수를 보이게 할 수 있는지는 잘 모르겠음
  - Kilo를 Pi나 OpenCode와 비교해봤는지 궁금함  
    둘은 익숙하지만 항상 대안을 찾고 있음
  - Claude Code Pro에서 토큰을 얼마나 썼는지 볼 방법이 있나?

- 이게 2022년의 **추측 디코딩**보다 더 새롭거나 나은 것인가? [https://arxiv.org/abs/2211.17192](<https://arxiv.org/abs/2211.17192>)
  - 그 논문은 이 논문의 ‘introduction’과 ‘background’ 섹션에서 인용됨  
    이 논문은 몇 가지 병목을 제거해 개선하는 내용임
  - DeepSeek 규모에서 추측이 낭비되는 검증 작업이 아니라 순수한 속도 향상으로 이어지도록, **초안 모델**과 검증 정책을 개선하는 데 초점을 둔 것 같음

- 시점이 우연은 아닌 듯함  
  **공개성**과 강한 규제를 대비해 보여주는 것 같음
  - 중국 = 공개적, 미국 = 강한 규제라니 이상한 타임라인임  
    다만 이건 Xi의 목표와 정렬되어 있기 때문에 가능한 일임
  - Anthropic에게 새 AI 모델의 위험성을 크게 떠드는 **미디어 공세**를 하라고 강요한 사람은 아무도 없음  
    솔직히 자업자득임

- 제목이 별로임  
  논문 제목이 아니라 초록의 첫 줄을 가져온 것임  
  LLM 추론용 **추측 디코딩**은 2022년에 이미 공개됐음: [https://arxiv.org/abs/2211.17192](<https://arxiv.org/abs/2211.17192>)
  
  이 논문은 추측 디코딩의 개선으로 보이지만 아직 읽어보지는 않음

- 이름 때문에 처음에는 **DGX Spark**와 관련된 줄 알았음  
  우연히도 최근 DGX Spark의 추론 성능을 개선하는 작업이 많이 있었고, MTP로 50~100% 속도 향상이 나왔으니 DSpark도 그 목적에 꽤 도움이 될 것 같음

- 아마 이건 한동안 프로덕션에서 쓰이고 있었고, 한 달 전에 가격을 크게 낮출 수 있었던 이유 중 하나였을 것 같음
  - 맞음  
    5장은 실제 배포를 다룸  
    5.1에는 “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro”라고 되어 있고, 5.4에는 “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release”라고 되어 있음
  - **Lookahead Sparse Attention**도 큰 역할을 했을 것임  
    메모리 사용량을 크게 줄여주기 때문임
  - 잘 짚었음  
    가격을 75% 낮췄는데, 속도와 추론 최적화 이득과 정확히 맞아떨어지는 것 같음

- 곧 사용 사례, 회사, 심지어 개인마다 고유한 **추측 디코딩용 소형 모델**이 매우 다양하게 존재하는 세상이 올 것 같음
  - 그렇게 되면 좋겠고, 하드웨어를 구하기 불가능해지지 않았으면 함
  - 맞음  
    정교한 **가드레일**에 강하게 제약된 형태가 될 것임
    
    확실히 이 방향으로 가고 있음  
    세상을 다 먹어치우려는 거대한 모델들은 그에 비해 수익 체감이 극심함
  - 최근 추측 디코딩 논문들을 분명 읽지 않은 것 같음  
    이미 한동안 어떤 모델이든 다른 모델을 위해 추측에 사용할 수 있었음  
    과거에 이를 막던 **토큰화 문제**가 해결됐음
