인텔 CPU 및 GPU에서 LLM을 실행하기 위한 PyTorch 라이브러리

(github.com/intel-analytics)

💫 IPEX-LLM

**IPEX-LLM**은 인텔 CPU 및 GPU에서 매우 낮은 지연 시간으로 LLM을 실행하기 위한 PyTorch 라이브러리임.
인텔 PyTorch 확장(IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ 등의 우수한 작업 위에 구축됨.
llama.cpp, Text-Generation-WebUI, HuggingFace transformers 등과의 원활한 통합을 제공함.
ipex-llm에서 최적화/검증된 50개 이상의 모델이 있으며, 여기에서 전체 목록을 볼 수 있음.

12세대 인텔 코어 CPU와 인텔 Arc GPU에서 chatglm2-6b 및 llama-2-13b-chat 모델의 최적화된 성능을 아래에서 확인할 수 있음.

저비트 추론
- INT4 추론: 인텔 GPU 및 CPU에서 INT4 LLM 추론
- FP8/FP4 추론: 인텔 GPU에서 FP8 및 FP4 LLM 추론
- INT8 추론: 인텔 GPU 및 CPU에서 INT8 LLM 추론
- INT2 추론: 인텔 GPU에서 INT2 LLM 추론
FP16/BF16 추론
- FP16 LLM 추론: 인텔 GPU에서 가능한 자기 추측 디코딩 최적화와 함께
- BF16 LLM 추론: 인텔 CPU에서 가능한 자기 추측 디코딩 최적화와 함께
저장 및 로드
- 저비트 모델: ipex-llm 저비트 모델 저장 및 로드
- GGUF: GGUF 모델을 ipex-llm에 직접 로드
- AWQ: AWQ 모델을 ipex-llm에 직접 로드
- GPTQ: GPTQ 모델을 ipex-llm에 직접 로드
파인튜닝
- 인텔 GPU에서 LLM 파인튜닝, LoRA, QLoRA, DPO, QA-LoRA 및 ReLoRA 포함
- 인텔 CPU에서 QLoRA 파인튜닝
커뮤니티 라이브러리와의 통합
- HuggingFace transformers
- 표준 PyTorch 모델
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
튜토리얼
- 자세한 내용은 ipex-llm 문서 웹사이트를 참조

ipex-llm에서 최적화/검증된 50개 이상의 모델에는 LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper 등이 포함되어 있으며, 아래에서 목록을 볼 수 있음.

IPEX-LLM은 인텔 하드웨어에서 대규모 언어 모델을 최적화하여 실행할 수 있는 강력한 도구로, 인공지능 연구 및 개발에 큰 도움이 될 수 있음.
이 라이브러리는 다양한 모델과 통합되어 있어 사용자가 쉽게 접근하고 활용할 수 있는 장점이 있음.
하지만 인텔 하드웨어에 특화되어 있어 다른 제조사의 하드웨어에서는 최적의 성능을 보장하지 않을 수 있음.
이 기술을 도입할 때는 하드웨어 호환성과 성능 튜닝에 대한 충분한 이해가 필요함.
대규모 언어 모델의 추론과 파인튜닝을 빠르게 진행할 수 있어, 시간과 자원을 절약하는 데 기여할 수 있음.

GPU VRAM 혁신 기대감

한 회사가 "4-코어 영원히"에서 벗어나 다음 소비자 GPU 출시를 통해 "8-16GB VRAM 영원히"라는 AMD와 Nvidia의 오랜 제한을 깨뜨릴 기회를 가짐. 32-48GB VRAM을 합리적인 가격에 제공하는 것이 시적일 것.
인텔의 소프트웨어 지원 긍정적 평가

인텔이 소프트웨어 지원에 있어 올바른 방향으로 나아가고 있음. 벤치마크 데이터를 보고 싶으며, 제시된 예시에서의 속도가 꽤 좋아 보임.
인텔 GPU에 대한 추천 요청

많은 vRAM을 가진 인텔 GPU에 대한 추천이 필요함. 이와 호환되는 제품이 있는지 문의.
성능 벤치마크에 대한 관심

'llamafile'이나 다른 벤치마크와의 성능 비교에 관심이 있음. 해당 벤치마크에 대한 링크 제공.
클라우드 GPU 사용 편의성 제안

클라우드 제공업체에서 호환 가능한 GPU로 예제를 실행할 수 있는 스크립트 제공이 좋을 것 같음. 이에 관심이 있는지, 직접 구성을 고려 중임.
클라우드 제공업체의 인텔 GPU 부재

주요 클라우드 제공업체에서 인텔 GPU를 제공하지 않음.
제품 리뷰에 대한 기대 표현

리뷰를 기대하며, 향후 제품에 대한 평가에 관심 있음.