DeepSeek, FlashMLA 오픈소스 공개 (1

▲

GN⁺ 2025-02-25 | parent | ★ favorite | on: DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)(github.com/deepseek-ai)

Hacker News 의견

vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함
- MHA는 여전히 낮은 QPS 환경에서 더 빠름
- 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함
- 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함
- MLA가 표준이 될 가능성이 높음
Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임
- 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨
- MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함
BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드
- 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임
- 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음
- 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음
MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음
중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가?
AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음
이걸로 무엇을 할 수 있을까?
Open AI가 돌아왔음