1P by neo 8달전 | favorite | 댓글 1개

💫 IPEX-LLM

  • **IPEX-LLM**은 인텔 CPU 및 GPU에서 매우 낮은 지연 시간으로 LLM을 실행하기 위한 PyTorch 라이브러리임.
  • 인텔 PyTorch 확장(IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ 등의 우수한 작업 위에 구축됨.
  • llama.cpp, Text-Generation-WebUI, HuggingFace transformers 등과의 원활한 통합을 제공함.
  • ipex-llm에서 최적화/검증된 50개 이상의 모델이 있으며, 여기에서 전체 목록을 볼 수 있음.

최신 업데이트 🔥

  • bigdl-llmipex-llm으로 변경되었으며, 원래 BigDL 프로젝트는 여기에서 찾을 수 있음.
  • ipex-llm은 이제 ModelScope(魔搭)에서 직접 모델을 로드할 수 있음.
  • ipex-llm은 INT2 지원을 추가하여 인텔 GPU에서 대형 LLM(예: Mixtral-8x7B)을 16GB VRAM으로 실행할 수 있게 함.
  • 사용자는 이제 Text-Generation-WebUI GUI를 통해 ipex-llm을 사용할 수 있음.
  • ipex-llm은 이제 _Self-Speculative Decoding_을 지원하여 인텔 GPU 및 CPU에서 FP16 및 BF16 추론 지연 시간을 각각 약 30% 가속화함.
  • ipex-llm은 이제 인텔 GPU에서 LLM 파인튜닝의 포괄적인 목록을 지원함.

ipex-llm 데모

  • 12세대 인텔 코어 CPU와 인텔 Arc GPU에서 chatglm2-6bllama-2-13b-chat 모델의 최적화된 성능을 아래에서 확인할 수 있음.

ipex-llm 빠른 시작

ipex-llm 설치

  • Windows GPU: 인텔 GPU가 있는 Windows에서 ipex-llm 설치
  • Linux GPU: 인텔 GPU가 있는 Linux에서 ipex-llm 설치
  • Docker: 인텔 CPU 및 GPU에서 ipex-llm 도커 사용
  • 자세한 내용은 설치 가이드를 참조

ipex-llm 실행

  • llama.cpp: 인텔 GPU에서 llama.cppipex-llm 실행
  • vLLM: 인텔 GPU 및 CPU에서 vLLM에서 ipex-llm 실행
  • FastChat: 인텔 GPU 및 CPU에서 FastChat 서빙에서 ipex-llm 실행
  • LangChain-Chatchat RAG: LangChain-Chatchat에서 ipex-llm 실행
  • Text-Generation-WebUI: oobabooga WebUI에서 ipex-llm 실행
  • Benchmarking: 인텔 CPU 및 GPU에서 ipex-llm의 벤치마킹 실행

코드 예제

  • 저비트 추론
    • INT4 추론: 인텔 GPU 및 CPU에서 INT4 LLM 추론
    • FP8/FP4 추론: 인텔 GPU에서 FP8FP4 LLM 추론
    • INT8 추론: 인텔 GPU 및 CPU에서 INT8 LLM 추론
    • INT2 추론: 인텔 GPU에서 INT2 LLM 추론
  • FP16/BF16 추론
    • FP16 LLM 추론: 인텔 GPU에서 가능한 자기 추측 디코딩 최적화와 함께
    • BF16 LLM 추론: 인텔 CPU에서 가능한 자기 추측 디코딩 최적화와 함께
  • 저장 및 로드
    • 저비트 모델: ipex-llm 저비트 모델 저장 및 로드
    • GGUF: GGUF 모델을 ipex-llm에 직접 로드
    • AWQ: AWQ 모델을 ipex-llm에 직접 로드
    • GPTQ: GPTQ 모델을 ipex-llm에 직접 로드
  • 파인튜닝
    • 인텔 GPU에서 LLM 파인튜닝, LoRA, QLoRA, DPO, QA-LoRA 및 ReLoRA 포함
    • 인텔 CPU에서 QLoRA 파인튜닝
  • 커뮤니티 라이브러리와의 통합
    • HuggingFace transformers
    • 표준 PyTorch 모델
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • 튜토리얼
    • 자세한 내용은 ipex-llm 문서 웹사이트를 참조

검증된 모델

  • ipex-llm에서 최적화/검증된 50개 이상의 모델에는 LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper 등이 포함되어 있으며, 아래에서 목록을 볼 수 있음.

GN⁺의 의견

  • IPEX-LLM은 인텔 하드웨어에서 대규모 언어 모델을 최적화하여 실행할 수 있는 강력한 도구로, 인공지능 연구 및 개발에 큰 도움이 될 수 있음.
  • 이 라이브러리는 다양한 모델과 통합되어 있어 사용자가 쉽게 접근하고 활용할 수 있는 장점이 있음.
  • 하지만 인텔 하드웨어에 특화되어 있어 다른 제조사의 하드웨어에서는 최적의 성능을 보장하지 않을 수 있음.
  • 이 기술을 도입할 때는 하드웨어 호환성과 성능 튜닝에 대한 충분한 이해가 필요함.
  • 대규모 언어 모델의 추론과 파인튜닝을 빠르게 진행할 수 있어, 시간과 자원을 절약하는 데 기여할 수 있음.
Hacker News 의견
  • GPU VRAM 혁신 기대감

    한 회사가 "4-코어 영원히"에서 벗어나 다음 소비자 GPU 출시를 통해 "8-16GB VRAM 영원히"라는 AMD와 Nvidia의 오랜 제한을 깨뜨릴 기회를 가짐. 32-48GB VRAM을 합리적인 가격에 제공하는 것이 시적일 것.

  • 인텔의 소프트웨어 지원 긍정적 평가

    인텔이 소프트웨어 지원에 있어 올바른 방향으로 나아가고 있음. 벤치마크 데이터를 보고 싶으며, 제시된 예시에서의 속도가 꽤 좋아 보임.

  • 인텔 GPU에 대한 추천 요청

    많은 vRAM을 가진 인텔 GPU에 대한 추천이 필요함. 이와 호환되는 제품이 있는지 문의.

  • 성능 벤치마크에 대한 관심

    'llamafile'이나 다른 벤치마크와의 성능 비교에 관심이 있음. 해당 벤치마크에 대한 링크 제공.

  • 클라우드 GPU 사용 편의성 제안

    클라우드 제공업체에서 호환 가능한 GPU로 예제를 실행할 수 있는 스크립트 제공이 좋을 것 같음. 이에 관심이 있는지, 직접 구성을 고려 중임.

  • 클라우드 제공업체의 인텔 GPU 부재

    주요 클라우드 제공업체에서 인텔 GPU를 제공하지 않음.

  • 제품 리뷰에 대한 기대 표현

    리뷰를 기대하며, 향후 제품에 대한 평가에 관심 있음.