DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)
(github.com/deepseek-ai)- Hopper GPU를 위한 효율적인 MLA 디코딩 커널
 - 가변 길이 시퀀스 서빙을 위해 최적화 됨
 - 현재 릴리즈 된 것
- BF16
 - 64 블록사이즈 Paged kvcache
 
 - 벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성
 - FlashAttention 2&3 와 cutlass 에서 영감을 받음
 - DeepSeek Open Infra 로 공개되는 5개 오픈소스 중 첫번째 임
 
Hacker News 의견
- vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함
- MHA는 여전히 낮은 QPS 환경에서 더 빠름
 - 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함
 - 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함
 - MLA가 표준이 될 가능성이 높음
 
 - Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임
- 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨
 - MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함
 
 - BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드
- 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임
 - 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음
 - 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음
 
 - MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음
 - 중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가?
 - AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음
 - 이걸로 무엇을 할 수 있을까?
 - Open AI가 돌아왔음