1P by neo 11달전 | favorite | 댓글과 토론

PowerInfer: 소비자용 GPU를 사용한 빠른 대규모 언어 모델 서빙

  • PowerInfer활성화 지역성을 활용하는 CPU/GPU LLM 추론 엔진.
  • PowerInfer와 llama.cpp는 동일한 하드웨어에서 실행되며 RTX 4090의 VRAM을 완전히 활용.

개요

  • PowerInfer는 개인용 컴퓨터(PC)에 탑재된 단일 소비자용 GPU로 대규모 언어 모델(LLM) 추론을 고속으로 수행하는 엔진.
  • PowerInfer의 설계 기반은 LLM 추론에서 나타나는 높은 지역성을 활용하는 것으로, 뉴런 활성화에 있어서 멱법칙 분포를 특징으로 함.
  • 이 분포는 소수의 '핫' 뉴런이 일관되게 활성화되고, 대다수의 '콜드' 뉴런은 입력에 따라 달라짐을 나타냄.
  • PowerInfer는 이러한 통찰을 활용하여 GPU-CPU 하이브리드 추론 엔진을 설계: '핫' 뉴런은 GPU에 미리 로드되고, '콜드' 뉴런은 CPU에서 계산되어 GPU 메모리 요구사항과 CPU-GPU 데이터 전송을 크게 줄임.
  • PowerInfer는 적응형 예측기와 뉴런 인식 희소 연산자를 통합하여 뉴런 활성화와 계산 희소성의 효율성을 최적화함.
  • 평가 결과, PowerInfer는 단일 NVIDIA RTX 4090 GPU에서 다양한 LLM(예: OPT-175B)에 대해 평균 13.20 토큰/초, 최대 29.08 토큰/초의 토큰 생성률을 달성, 서버급 A100 GPU에 비해 18% 낮은 성능을 보임.
  • 모델 정확도를 유지하면서 llama.cpp보다 최대 11.69배 빠른 성능을 보임.

특징

  • 지역성 중심 설계: 효율적인 LLM 추론을 위해 희소 활성화와 '핫'/'콜드' 뉴런 개념을 활용, 낮은 자원 요구사항으로 고속성 보장.

  • 하이브리드 CPU/GPU 활용: CPU와 GPU의 메모리/계산 능력을 원활하게 통합하여 균형 잡힌 작업 부하와 빠른 처리 가능.

  • 간편한 통합: 인기 있는 ReLU-희소 모델과 호환.

  • 로컬 배포 용이성: 소비자용 하드웨어에서 로컬 배포에 깊이 최적화되어 단일 GPU에서 저지연 LLM 추론 및 서빙 가능.

  • 하위 호환성: llama.cpp와는 다르지만, 서버 및 배치 생성과 같은 대부분의 examples/를 llama.cpp처럼 사용할 수 있음.

시작하기

  • 설치모델 가중치 안내 제공.

설정 및 설치

  • 코드 획득 및 빌드 방법 안내.

모델 가중치

  • PowerInfer 모델은 LLM 가중치와 예측기 가중치를 포함하는 PowerInfer GGUF 형식으로 저장됨.
  • Hugging Face를 통해 PowerInfer GGUF 가중치 다운로드 가능.
  • 원본 모델 가중치와 예측기 가중치를 PowerInfer GGUF로 변환하는 방법 안내.

추론

  • CPU만 사용하거나 모든 사용 가능한 VRAM을 사용하는 CPU-GPU 하이브리드 추론을 위한 지침 제공.

양자화

  • INT4(Q4_0) 모델에 대한 최적화된 양자화 지원 및 사용 방법 안내.

평가

  • PowerInfer는 FP16 및 INT4 모델에 대해 최대 11배 및 8배의 속도 향상 달성.

자주 묻는 질문

  • CUDA_ERROR_OUT_OF_MEMORY 오류 해결 방법 및 기타 문제 해결을 위한 지원 안내.

할 일

  • PowerInfer의 핵심 코드, Mistral-7B 모델, Windows 지원, text-generation-webui, perplexity 평가 코드, Mac용 Metal 지원, OPT 모델 코드, 예측기 훈련 코드, FFN 네트워크의 온라인 분할, Multi-GPU 지원 등의 출시 계획 안내.

논문 및 인용

  • PowerInfer에 대한 기술적 세부사항은 논문에서 확인 가능.
  • PowerInfer가 유용하거나 관련 프로젝트 및 연구에 도움이 되면 논문 인용 요청.

감사의 말

  • 수정 가능한 연산자 라이브러리 ggml과 llama.cpp의 실행 런타임에 감사.
  • ReLU 기반 희소 모델에 대한 THUNLP의 지원에 감사.
  • PowerInfer에 영감을 준 Deja Vu 연구에 감사.

GN⁺의 의견

  • PowerInfer는 소비자용 GPU를 사용하여 대규모 언어 모델을 빠르고 효율적으로 추론할 수 있는 혁신적인 엔진임.
  • '핫'/'콜드' 뉴런 개념과 하이브리드 CPU/GPU 활용을 통해 자원을 절약하면서도 서버급 성능에 근접하는 추론 속도를 제공함.
  • 이 기술은 AI 연구 및 개발에 있어서 개인 개발자나 소규모 팀이 서버급 하드웨어에 접근하지 않고도 고성능 모델을 실험하고 배포할 수 있는 기회를 열어줌.