PagedAttention으로 KV 캐시를 페이지처럼 쪼개 관리하고, GPU 메모리를 OS의 가상 메모리처럼 페이징해 같은 자원으로 더 많은 요청을 동시에 처리하는 오픈소스 LLM 추론 엔진입니다. Continuous Batching 기반 스케줄링까지 알아서 붙여주니, 모델은 여전히 한 토큰씩 뱉는데 처리량이 확 달라집니다. 한번 경험하면 naive하게 model.generate() 돌리던 시절로는 돌아가기 어렵습니다. GPU가 놀고 있는 걸 그냥 두는 게 더 어색해지거든요.
이 배지는 해당 기술·서비스에서 영감을 받아 제작한 GeekNews용 아이콘입니다. 공식 제휴나 승인을 의미하지 않습니다.