5P by xguru 5일전 | ★ favorite | 댓글 2개
  • Hopper GPU를 위한 효율적인 MLA 디코딩 커널
  • 가변 길이 시퀀스 서빙을 위해 최적화 됨
  • 현재 릴리즈 된 것
    • BF16
    • 64 블록사이즈 Paged kvcache
  • 벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성
  • FlashAttention 2&3cutlass 에서 영감을 받음
  • DeepSeek Open Infra 로 공개되는 5개 오픈소스 중 첫번째 임

Hacker News 의견

  • vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함
    • MHA는 여전히 낮은 QPS 환경에서 더 빠름
    • 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함
    • 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함
    • MLA가 표준이 될 가능성이 높음
  • Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임
    • 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨
    • MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함
  • BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드
    • 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임
    • 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음
    • 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음
  • MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음
  • 중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가?
  • AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음
  • 이걸로 무엇을 할 수 있을까?
  • Open AI가 돌아왔음