# 인텔 CPU 및 GPU에서 LLM을 실행하기 위한 PyTorch 라이브러리

> Clean Markdown view of GeekNews topic #14156. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14156](https://news.hada.io/topic?id=14156)
- GeekNews Markdown: [https://news.hada.io/topic/14156.md](https://news.hada.io/topic/14156.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-04-05T10:13:16+09:00
- Updated: 2024-04-05T10:13:16+09:00
- Original source: [github.com/intel-analytics](https://github.com/intel-analytics/ipex-llm)
- Points: 1
- Comments: 1

## Topic Body

### 💫 IPEX-LLM
- **`IPEX-LLM`**은 인텔 CPU 및 GPU에서 매우 낮은 지연 시간으로 **LLM**을 실행하기 위한 PyTorch 라이브러리임.
- 인텔 PyTorch 확장(`IPEX`), `llama.cpp`, `bitsandbytes`, `vLLM`, `qlora`, `AutoGPTQ`, `AutoAWQ` 등의 우수한 작업 위에 구축됨.
- `llama.cpp`, Text-Generation-WebUI, HuggingFace transformers 등과의 원활한 통합을 제공함.
- `ipex-llm`에서 최적화/검증된 **50개 이상의 모델**이 있으며, 여기에서 전체 목록을 볼 수 있음.

#### 최신 업데이트 🔥
- `bigdl-llm`이 `ipex-llm`으로 변경되었으며, 원래 `BigDL` 프로젝트는 여기에서 찾을 수 있음.
- `ipex-llm`은 이제 ModelScope(魔搭)에서 직접 모델을 로드할 수 있음.
- `ipex-llm`은 INT2 지원을 추가하여 인텔 GPU에서 대형 LLM(예: Mixtral-8x7B)을 16GB VRAM으로 실행할 수 있게 함.
- 사용자는 이제 Text-Generation-WebUI GUI를 통해 `ipex-llm`을 사용할 수 있음.
- `ipex-llm`은 이제 _Self-Speculative Decoding_을 지원하여 인텔 GPU 및 CPU에서 FP16 및 BF16 추론 지연 시간을 각각 약 30% 가속화함.
- `ipex-llm`은 이제 인텔 GPU에서 LLM **파인튜닝**의 포괄적인 목록을 지원함.

#### `ipex-llm` 데모
- 12세대 인텔 코어 CPU와 인텔 Arc GPU에서 `chatglm2-6b` 및 `llama-2-13b-chat` 모델의 **최적화된 성능**을 아래에서 확인할 수 있음.

#### `ipex-llm` 빠른 시작
##### `ipex-llm` 설치
- Windows GPU: 인텔 GPU가 있는 Windows에서 `ipex-llm` 설치
- Linux GPU: 인텔 GPU가 있는 Linux에서 `ipex-llm` 설치
- Docker: 인텔 CPU 및 GPU에서 `ipex-llm` 도커 사용
- 자세한 내용은 설치 가이드를 참조

##### `ipex-llm` 실행
- llama.cpp: 인텔 GPU에서 `llama.cpp`용 `ipex-llm` 실행
- vLLM: 인텔 GPU 및 CPU에서 `vLLM`에서 `ipex-llm` 실행
- FastChat: 인텔 GPU 및 CPU에서 `FastChat` 서빙에서 `ipex-llm` 실행
- LangChain-Chatchat RAG: `LangChain-Chatchat`에서 `ipex-llm` 실행
- Text-Generation-WebUI: `oobabooga` **WebUI**에서 `ipex-llm` 실행
- Benchmarking: 인텔 CPU 및 GPU에서 `ipex-llm`의 벤치마킹 실행

##### 코드 예제
- 저비트 추론
  - INT4 추론: 인텔 GPU 및 CPU에서 **INT4** LLM 추론
  - FP8/FP4 추론: 인텔 GPU에서 **FP8** 및 **FP4** LLM 추론
  - INT8 추론: 인텔 GPU 및 CPU에서 **INT8** LLM 추론
  - INT2 추론: 인텔 GPU에서 **INT2** LLM 추론
- FP16/BF16 추론
  - **FP16** LLM 추론: 인텔 GPU에서 가능한 자기 추측 디코딩 최적화와 함께
  - **BF16** LLM 추론: 인텔 CPU에서 가능한 자기 추측 디코딩 최적화와 함께
- 저장 및 로드
  - 저비트 모델: `ipex-llm` 저비트 모델 저장 및 로드
  - GGUF: GGUF 모델을 `ipex-llm`에 직접 로드
  - AWQ: AWQ 모델을 `ipex-llm`에 직접 로드
  - GPTQ: GPTQ 모델을 `ipex-llm`에 직접 로드
- 파인튜닝
  - 인텔 GPU에서 LLM 파인튜닝, LoRA, QLoRA, DPO, QA-LoRA 및 ReLoRA 포함
  - 인텔 CPU에서 QLoRA 파인튜닝
- 커뮤니티 라이브러리와의 통합
  - HuggingFace transformers
  - 표준 PyTorch 모델
  - DeepSpeed-AutoTP
  - HuggingFace PEFT
  - HuggingFace TRL
  - LangChain
  - LlamaIndex
  - AutoGen
  - ModeScope
- 튜토리얼
  - 자세한 내용은 `ipex-llm` 문서 웹사이트를 참조

#### 검증된 모델
- `ipex-llm`에서 최적화/검증된 50개 이상의 모델에는 LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper 등이 포함되어 있으며, 아래에서 목록을 볼 수 있음.

### GN⁺의 의견
- `IPEX-LLM`은 인텔 하드웨어에서 대규모 언어 모델을 최적화하여 실행할 수 있는 강력한 도구로, 인공지능 연구 및 개발에 큰 도움이 될 수 있음.
- 이 라이브러리는 다양한 모델과 통합되어 있어 사용자가 쉽게 접근하고 활용할 수 있는 장점이 있음.
- 하지만 인텔 하드웨어에 특화되어 있어 다른 제조사의 하드웨어에서는 최적의 성능을 보장하지 않을 수 있음.
- 이 기술을 도입할 때는 하드웨어 호환성과 성능 튜닝에 대한 충분한 이해가 필요함.
- 대규모 언어 모델의 추론과 파인튜닝을 빠르게 진행할 수 있어, 시간과 자원을 절약하는 데 기여할 수 있음.

## Comments


### Comment 24231

- Author: neo
- Created: 2024-04-05T10:13:16+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=39915594) 
- **GPU VRAM 혁신 기대감**
  > 한 회사가 "4-코어 영원히"에서 벗어나 다음 소비자 GPU 출시를 통해 "8-16GB VRAM 영원히"라는 AMD와 Nvidia의 오랜 제한을 깨뜨릴 기회를 가짐. 32-48GB VRAM을 합리적인 가격에 제공하는 것이 시적일 것.

- **인텔의 소프트웨어 지원 긍정적 평가**
  > 인텔이 소프트웨어 지원에 있어 올바른 방향으로 나아가고 있음. 벤치마크 데이터를 보고 싶으며, 제시된 예시에서의 속도가 꽤 좋아 보임.

- **인텔 GPU에 대한 추천 요청**
  > 많은 vRAM을 가진 인텔 GPU에 대한 추천이 필요함. 이와 호환되는 제품이 있는지 문의.

- **성능 벤치마크에 대한 관심**
  > 'llamafile'이나 다른 벤치마크와의 성능 비교에 관심이 있음. 해당 벤치마크에 대한 링크 제공.

- **클라우드 GPU 사용 편의성 제안**
  > 클라우드 제공업체에서 호환 가능한 GPU로 예제를 실행할 수 있는 스크립트 제공이 좋을 것 같음. 이에 관심이 있는지, 직접 구성을 고려 중임.

- **클라우드 제공업체의 인텔 GPU 부재**
  > 주요 클라우드 제공업체에서 인텔 GPU를 제공하지 않음.

- **제품 리뷰에 대한 기대 표현**
  > 리뷰를 기대하며, 향후 제품에 대한 평가에 관심 있음.