GN⁺: 인텔 CPU 및 GPU에서 LLM을 실행하기 위한 PyTorch 라이브러리
(github.com/intel-analytics)💫 IPEX-LLM
- **
IPEX-LLM
**은 인텔 CPU 및 GPU에서 매우 낮은 지연 시간으로 LLM을 실행하기 위한 PyTorch 라이브러리임. - 인텔 PyTorch 확장(
IPEX
),llama.cpp
,bitsandbytes
,vLLM
,qlora
,AutoGPTQ
,AutoAWQ
등의 우수한 작업 위에 구축됨. -
llama.cpp
, Text-Generation-WebUI, HuggingFace transformers 등과의 원활한 통합을 제공함. -
ipex-llm
에서 최적화/검증된 50개 이상의 모델이 있으며, 여기에서 전체 목록을 볼 수 있음.
최신 업데이트 🔥
-
bigdl-llm
이ipex-llm
으로 변경되었으며, 원래BigDL
프로젝트는 여기에서 찾을 수 있음. -
ipex-llm
은 이제 ModelScope(魔搭)에서 직접 모델을 로드할 수 있음. -
ipex-llm
은 INT2 지원을 추가하여 인텔 GPU에서 대형 LLM(예: Mixtral-8x7B)을 16GB VRAM으로 실행할 수 있게 함. - 사용자는 이제 Text-Generation-WebUI GUI를 통해
ipex-llm
을 사용할 수 있음. -
ipex-llm
은 이제 _Self-Speculative Decoding_을 지원하여 인텔 GPU 및 CPU에서 FP16 및 BF16 추론 지연 시간을 각각 약 30% 가속화함. -
ipex-llm
은 이제 인텔 GPU에서 LLM 파인튜닝의 포괄적인 목록을 지원함.
ipex-llm
데모
- 12세대 인텔 코어 CPU와 인텔 Arc GPU에서
chatglm2-6b
및llama-2-13b-chat
모델의 최적화된 성능을 아래에서 확인할 수 있음.
ipex-llm
빠른 시작
ipex-llm
설치
- Windows GPU: 인텔 GPU가 있는 Windows에서
ipex-llm
설치 - Linux GPU: 인텔 GPU가 있는 Linux에서
ipex-llm
설치 - Docker: 인텔 CPU 및 GPU에서
ipex-llm
도커 사용 - 자세한 내용은 설치 가이드를 참조
ipex-llm
실행
- llama.cpp: 인텔 GPU에서
llama.cpp
용ipex-llm
실행 - vLLM: 인텔 GPU 및 CPU에서
vLLM
에서ipex-llm
실행 - FastChat: 인텔 GPU 및 CPU에서
FastChat
서빙에서ipex-llm
실행 - LangChain-Chatchat RAG:
LangChain-Chatchat
에서ipex-llm
실행 - Text-Generation-WebUI:
oobabooga
WebUI에서ipex-llm
실행 - Benchmarking: 인텔 CPU 및 GPU에서
ipex-llm
의 벤치마킹 실행
코드 예제
- 저비트 추론
- INT4 추론: 인텔 GPU 및 CPU에서 INT4 LLM 추론
- FP8/FP4 추론: 인텔 GPU에서 FP8 및 FP4 LLM 추론
- INT8 추론: 인텔 GPU 및 CPU에서 INT8 LLM 추론
- INT2 추론: 인텔 GPU에서 INT2 LLM 추론
- FP16/BF16 추론
- FP16 LLM 추론: 인텔 GPU에서 가능한 자기 추측 디코딩 최적화와 함께
- BF16 LLM 추론: 인텔 CPU에서 가능한 자기 추측 디코딩 최적화와 함께
- 저장 및 로드
- 저비트 모델:
ipex-llm
저비트 모델 저장 및 로드 - GGUF: GGUF 모델을
ipex-llm
에 직접 로드 - AWQ: AWQ 모델을
ipex-llm
에 직접 로드 - GPTQ: GPTQ 모델을
ipex-llm
에 직접 로드
- 저비트 모델:
- 파인튜닝
- 인텔 GPU에서 LLM 파인튜닝, LoRA, QLoRA, DPO, QA-LoRA 및 ReLoRA 포함
- 인텔 CPU에서 QLoRA 파인튜닝
- 커뮤니티 라이브러리와의 통합
- HuggingFace transformers
- 표준 PyTorch 모델
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- 튜토리얼
- 자세한 내용은
ipex-llm
문서 웹사이트를 참조
- 자세한 내용은
검증된 모델
-
ipex-llm
에서 최적화/검증된 50개 이상의 모델에는 LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper 등이 포함되어 있으며, 아래에서 목록을 볼 수 있음.
GN⁺의 의견
-
IPEX-LLM
은 인텔 하드웨어에서 대규모 언어 모델을 최적화하여 실행할 수 있는 강력한 도구로, 인공지능 연구 및 개발에 큰 도움이 될 수 있음. - 이 라이브러리는 다양한 모델과 통합되어 있어 사용자가 쉽게 접근하고 활용할 수 있는 장점이 있음.
- 하지만 인텔 하드웨어에 특화되어 있어 다른 제조사의 하드웨어에서는 최적의 성능을 보장하지 않을 수 있음.
- 이 기술을 도입할 때는 하드웨어 호환성과 성능 튜닝에 대한 충분한 이해가 필요함.
- 대규모 언어 모델의 추론과 파인튜닝을 빠르게 진행할 수 있어, 시간과 자원을 절약하는 데 기여할 수 있음.
Hacker News 의견
-
GPU VRAM 혁신 기대감
한 회사가 "4-코어 영원히"에서 벗어나 다음 소비자 GPU 출시를 통해 "8-16GB VRAM 영원히"라는 AMD와 Nvidia의 오랜 제한을 깨뜨릴 기회를 가짐. 32-48GB VRAM을 합리적인 가격에 제공하는 것이 시적일 것.
-
인텔의 소프트웨어 지원 긍정적 평가
인텔이 소프트웨어 지원에 있어 올바른 방향으로 나아가고 있음. 벤치마크 데이터를 보고 싶으며, 제시된 예시에서의 속도가 꽤 좋아 보임.
-
인텔 GPU에 대한 추천 요청
많은 vRAM을 가진 인텔 GPU에 대한 추천이 필요함. 이와 호환되는 제품이 있는지 문의.
-
성능 벤치마크에 대한 관심
'llamafile'이나 다른 벤치마크와의 성능 비교에 관심이 있음. 해당 벤치마크에 대한 링크 제공.
-
클라우드 GPU 사용 편의성 제안
클라우드 제공업체에서 호환 가능한 GPU로 예제를 실행할 수 있는 스크립트 제공이 좋을 것 같음. 이에 관심이 있는지, 직접 구성을 고려 중임.
-
클라우드 제공업체의 인텔 GPU 부재
주요 클라우드 제공업체에서 인텔 GPU를 제공하지 않음.
-
제품 리뷰에 대한 기대 표현
리뷰를 기대하며, 향후 제품에 대한 평가에 관심 있음.