# DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)

> Clean Markdown view of GeekNews topic #19401. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19401](https://news.hada.io/topic?id=19401)
- GeekNews Markdown: [https://news.hada.io/topic/19401.md](https://news.hada.io/topic/19401.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-24T15:14:21+09:00
- Updated: 2025-02-24T15:14:21+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/FlashMLA)
- Points: 5
- Comments: 2

## Summary

DeepSeek는 Hopper GPU를 위한 효율적인 MLA 디코딩 커널을 오픈소스로 공개했습니다. 이 커널은 가변 길이 시퀀스 서빙에 최적화되어 있으며, BF16과 64 블록사이즈 Paged kvcache를 지원합니다. 벤치마크 결과, CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성했습니다.

## Topic Body

- Hopper GPU를 위한 효율적인 MLA 디코딩 커널   
- 가변 길이 시퀀스 서빙을 위해 최적화 됨   
- 현재 릴리즈 된 것  
  - BF16   
  - 64 블록사이즈 Paged kvcache   
- 벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성  
- [FlashAttention 2&3](https://github.com/dao-AILab/flash-attention/) 와 [cutlass](https://github.com/nvidia/cutlass)  에서 영감을 받음  
- [DeepSeek Open Infra 로 공개되는 5개 오픈소스](https://news.hada.io/topic?id=19359) 중 첫번째 임

## Comments


### Comment 35065

- Author: neo
- Created: 2025-02-25T10:00:50+09:00
- Points: 1

#### [Hacker News 의견](https://news.ycombinator.com/item?id=43155023)   
* vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함  
  - MHA는 여전히 낮은 QPS 환경에서 더 빠름  
  - 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함  
  - 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함  
  - MLA가 표준이 될 가능성이 높음  
* Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임  
  - 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨  
  - MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함  
* BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드  
  - 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임  
  - 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음  
  - 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음  
* MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음  
* 중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가?  
* AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음  
* 이걸로 무엇을 할 수 있을까?  
* Open AI가 돌아왔음

### Comment 35035

- Author: xguru
- Created: 2025-02-24T15:14:30+09:00
- Points: 1

[FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention](https://news.hada.io/topic?id=9892)  
[FlashAttention-3: 비동기 및 저정밀도로 빠르고 정확한 Attention](https://news.hada.io/topic?id=15805)