# 기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

> Clean Markdown view of GeekNews topic #28520. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28520](https://news.hada.io/topic?id=28520)
- GeekNews Markdown: [https://news.hada.io/topic/28520.md](https://news.hada.io/topic/28520.md)
- Type: news
- Author: [skyline23](https://news.hada.io/@skyline23)
- Published: 2026-04-15T00:16:02+09:00
- Updated: 2026-04-15T00:16:02+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2604.10900)
- Points: 9
- Comments: 2

## Topic Body

CASK는 LLM 추론 과정에서 발생하는 KV cache 증가 문제를 해결하기 위해  
기존의 token importance 기반 pruning 방식이 아닌,  
**구조적(role-based) 접근**을 제안하는 논문  
  
본 연구는 **단 5일 만에 도출되었으며, 지도교수 없이 진행된 개인 연구자 2인의 결과**라는 점에서도 주목할 만함  
  
---  
  
#### 📌 문제 정의  
  
긴 chain-of-thought 추론 시 KV cache가 빠르게 증가하며:  
  
- 메모리 사용량 급증  
- 추론 latency 증가  
- 장기 reasoning 성능 저하  
  
기존 방식:  
- token importance scoring 기반  
- 낮은 점수 토큰을 eviction  
  
---  
  
#### ❌ 기존 방식의 한계  
  
논문 실험 결과:  
  
- importance scoring을 정교하게 개선해도  
  → 실제 유지되는 토큰 집합 변화가 제한적  
  
즉,  
  
- eviction 전략 개선만으로는  
  성능 및 효율 개선에 한계 존재  
  
---  
  
#### 🔥 핵심 아이디어  
  
CASK는 토큰을 중요도가 아닌 **역할 기반으로 분리**  
  
##### Core  
- 최종 출력 생성에 직접 기여  
- reasoning의 핵심 상태  
- **항상 유지**  
  
##### Scratch  
- 중간 계산, 탐색 과정에서 생성되는 상태  
- 중복 및 불필요 정보 포함 가능  
- **압축 및 병합 대상**  
  
---  
  
#### ⚙️ 동작 방식  
  
##### Prefix Phase  
- 입력(prompt) 구간  
- 일부 KV eviction 수행  
  
##### Decode Phase  
- 추론 진행 구간  
- Scratch 영역만 선택적 compression 적용  
  
👉 기존 대비 차이:  
- 단순 삭제 → **선별적 보존 + 구조적 압축**  
  
---  
  
#### 📊 성능  
  
논문 결과 기준:  
  
- 기존 KV 압축 기법 대비  
  → **최대 25% 추가 메모리 절감**  
  
- 동일 KV cache budget에서  
  → 더 높은 정확도 유지  
  
- 일부 구간에서는  
  → **더 적은 KV cache로 더 높은 성능 달성**  
  
예:  
- CASK (KV 384) > 기존 방식 (KV 512)  
  
👉 메모리 사용량 감소 + 성능 향상 동시 달성  
  
---  
  
#### 📌 기술적 특징  
  
- token-level pruning → **structure-aware compression**  
- eviction 중심 → **preserve + reuse 전략**  
- reasoning 과정에서 정보 재사용 강화  
  
---  
  
#### 📌 의미  
  
CASK는 KV cache 최적화를  
  
- “얼마나 버릴 것인가”에서  
- **“무엇을 반드시 유지할 것인가”로 전환**  
  
시키는 접근  
  
---  
  
#### 🚀 요약  
  
- 최대 25% KV cache 추가 절감  
- 동일 또는 더 높은 추론 성능 확보  
- 구조 기반 KV 관리 방식 제시

## Comments



### Comment 55502

- Author: wogns3623
- Created: 2026-04-15T19:18:27+09:00
- Points: 1

논문 작성에 ai 활용을 하셨다면 어떻게 사용하셨는지 궁금합니다. 5일만에 아이디에이션부터 실험까지 진행했다는 부분이 인상깊어 여쭤봅니다

### Comment 55339

- Author: skyline23
- Created: 2026-04-15T00:20:13+09:00
- Points: 1

수정이 되지 않아 추가적으로 남깁니다!  
  
- 논문 링크  
https://arxiv.org/abs/2604.10900  
  
- 깃허브 링크  
https://github.com/Skyline-23/CASK
