# PowerInfer - 소비자용 GPU를 사용해서 빠르게 LLM 서빙하기

> Clean Markdown view of GeekNews topic #12457. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12457](https://news.hada.io/topic?id=12457)
- GeekNews Markdown: [https://news.hada.io/topic/12457.md](https://news.hada.io/topic/12457.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-12-21T10:51:02+09:00
- Updated: 2023-12-21T10:51:02+09:00
- Original source: [github.com/SJTU-IPADS](https://github.com/SJTU-IPADS/PowerInfer)
- Points: 16
- Comments: 1

## Topic Body

- RTX 4090(24G)에서 Falcon(ReLU)-40B-FP16 실행시 llama.cpp 보다 11배 빠름   
- 기기의 Activation Locality를 활용하는 CPU/GPU 하이브리드 LLM 추론엔진   
  - 일관되게 활성화되는 일부의 핫뉴런, 특정 입력에 따라 달라지는 대다수의 콜드뉴런으로 구분  
  - 핫 뉴런은 GPU에 미리 로드하여 빠르게 활성화, 콜드 뉴런은 CPU에서 계산해서 GPU 메모리 요구량과 CPU-GPU 데이터 전송을 크게 줄임   
- 적응형 예측기와 뉴런 인식 희소 연산자를 통합하여 뉴런 활성화와 계산 희소성의 효율성을 최적화   
- 단일 NVIDIA RTX 4090 GPU에서 다양한 LLM(OPT-175B 포함)에 걸쳐 평균 13.20 토큰/초, 최고 29.08 토큰/초의 토큰 생성 속도를 달성  
  - 이는 최상위 서버급 A100 GPU가 달성한 것보다 18% 낮은 수치에 불과  
  - 모델 정확도를 유지하면서 최대 11.69배까지 llama.cpp의 성능을 크게 뛰어넘는 것

## Comments



### Comment 21771

- Author: cosine20
- Created: 2023-12-28T09:36:17+09:00
- Points: 1

4090이 소비자용이긴 하죠 ㅋㅋ.....
