▲GN⁺ 2025-02-25 | parent | ★ favorite | on: DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)(github.com/deepseek-ai)Hacker News 의견 vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함 MHA는 여전히 낮은 QPS 환경에서 더 빠름 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함 MLA가 표준이 될 가능성이 높음 Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨 MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함 BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음 MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음 중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가? AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음 이걸로 무엇을 할 수 있을까? Open AI가 돌아왔음
Hacker News 의견