▲doolayer 8달전 | parent | ★ favorite | on: vLLM PagedAttention: LLM 추론 처리량의 혁신(aleksagordic.com)PagedAttention의 메모리 관리 한계를 보완하기 위해 vAttention이 제안되었습니다. 관련 논문은 여기에서 확인할 수 있습니다: https://arxiv.org/pdf/2405.04437
PagedAttention의 메모리 관리 한계를 보완하기 위해 vAttention이 제안되었습니다.
관련 논문은 여기에서 확인할 수 있습니다: https://arxiv.org/pdf/2405.04437