DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)

(github.com/deepseek-ai)

5P by xguru 8달전 | ★ favorite | 댓글 2개

Hopper GPU를 위한 효율적인 MLA 디코딩 커널
가변 길이 시퀀스 서빙을 위해 최적화 됨
현재 릴리즈 된 것
- BF16
- 64 블록사이즈 Paged kvcache
벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성
FlashAttention 2&3 와 cutlass 에서 영감을 받음
DeepSeek Open Infra 로 공개되는 5개 오픈소스 중 첫번째 임

▲

GN⁺ 8달전 [-]

Hacker News 의견

vLLM이 3주 전부터 Deepseek 모델을 위한 MLA를 지원하기 시작했음. 이는 3배 높은 생성 처리량과 10배의 토큰 메모리 용량을 제공함
- MHA는 여전히 낮은 QPS 환경에서 더 빠름
- 이론적 증거에 따르면, 동일한 KV 캐시 오버헤드에서 MLA는 GQA보다 일관되게 더 큰 표현력을 제공함
- 널리 사용되는 GQA 기반 사전 학습 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환 가능함
- MLA가 표준이 될 가능성이 높음
Deepseek R1이 표준 MHA를 사용했다면, KV 캐시 저장을 위해 토큰당 1749KB가 필요했을 것임
- 대화가 약 46,000 토큰에 도달하면 KV 캐시가 단일 H100의 전체 저장 용량을 초과하게 됨
- MLA를 사용하면 각 토큰은 125KB를 소비함. 이는 약 640,000 토큰(2배의 Ulysses)을 초과하기 전까지 가능함
BF16 지원, 페이지드 KV 캐시(블록 크기 64), H800에서 3000 GB/s 메모리 바운드 및 580 TFLOPS 컴퓨트 바운드
- 많은 FANG 개발자들이 이로 인해 많은 시간을 절약했을 것임
- 아쉬운 점은 오직 전방 패스만 지원함. 진정한 비밀은 역방향 패스에 있었음
- 듀얼파이프 스케줄러를 어떻게 구현했는지 궁금했음
MLA는 아마도 Multi-head latent attention을 의미할 가능성이 있음
중국 회사에 대한 Hopper GPU 제재가 있지 않았는지 혼란스러움. 미국 제재에도 불구하고 H100에 접근할 수 있었다고 인정하는 것인가?
AI로 플래시 게임을 다시 가져올 수 있기를 정말 바랐음
이걸로 무엇을 할 수 있을까?
Open AI가 돌아왔음

답변달기

▲

xguru 8달전 [-]

FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention
FlashAttention-3: 비동기 및 저정밀도로 빠르고 정확한 Attention

답변달기