8P by xguru 11달전 | favorite | 댓글과 토론
  • 빠른 LLM 추론 및 서빙을 위한 오픈소스 라이브러리
  • PagedAttention 알고리듬으로 어텐션 키/값을 효율적으로 관리
    • 모델 아키텍처 변경없이 HuggingFace Transformers 대비 24배 높은 처리량
    • 비연속 메모리 공간에 연속된 키/값을 저장 가능
  • LMSYS Vicuna 와 Chatbot Arena 에서 성공적으로 이용중