▲vLLM: PagedAttention을 이용한 쉽고, 빠르고 저렴한 LLM 서빙 (vllm.ai)8P by xguru 2023-06-23 | ★ favorite | 댓글과 토론 빠른 LLM 추론 및 서빙을 위한 오픈소스 라이브러리 PagedAttention 알고리듬으로 어텐션 키/값을 효율적으로 관리 모델 아키텍처 변경없이 HuggingFace Transformers 대비 24배 높은 처리량 비연속 메모리 공간에 연속된 키/값을 저장 가능 LMSYS Vicuna 와 Chatbot Arena 에서 성공적으로 이용중 함께 보면 좋은 글 β vLLM PagedAttention: LLM 추론 처리량의 혁신 vLLM 프리 스레드 파이썬 지원되면 더 빠르고 효율적인 모델 서빙 가능할듯 vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙 vLLM 메모리 누수 디버깅: 힙(Heap) 너머 UCX와 mmap의 미스터리 vLLM 제작자들이 설립한 'Inferact', 오픈소스 추론 엔진 상용화 위해 1억 5천만 달러 시드 투자 유치 인증 이메일 클릭후 다시 체크박스를 눌러주세요