PowerInfer - 소비자용 GPU를 사용해서 빠르게 LLM 서빙하기

(github.com/SJTU-IPADS)

RTX 4090(24G)에서 Falcon(ReLU)-40B-FP16 실행시 llama.cpp 보다 11배 빠름
기기의 Activation Locality를 활용하는 CPU/GPU 하이브리드 LLM 추론엔진
- 일관되게 활성화되는 일부의 핫뉴런, 특정 입력에 따라 달라지는 대다수의 콜드뉴런으로 구분
- 핫 뉴런은 GPU에 미리 로드하여 빠르게 활성화, 콜드 뉴런은 CPU에서 계산해서 GPU 메모리 요구량과 CPU-GPU 데이터 전송을 크게 줄임
적응형 예측기와 뉴런 인식 희소 연산자를 통합하여 뉴런 활성화와 계산 희소성의 효율성을 최적화
단일 NVIDIA RTX 4090 GPU에서 다양한 LLM(OPT-175B 포함)에 걸쳐 평균 13.20 토큰/초, 최고 29.08 토큰/초의 토큰 생성 속도를 달성
- 이는 최상위 서버급 A100 GPU가 달성한 것보다 18% 낮은 수치에 불과
- 모델 정확도를 유지하면서 최대 11.69배까지 llama.cpp의 성능을 크게 뛰어넘는 것

4090이 소비자용이긴 하죠 ㅋㅋ.....