# DeepSeek-R1-671B-Q4_K_M을 1/2개의 Arc A770 Xeon에서 실행하기

> Clean Markdown view of GeekNews topic #19625. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19625](https://news.hada.io/topic?id=19625)
- GeekNews Markdown: [https://news.hada.io/topic/19625.md](https://news.hada.io/topic/19625.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-08T09:50:33+09:00
- Updated: 2025-03-08T09:50:33+09:00
- Original source: [github.com/intel](https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/llamacpp_portable_zip_gpu_quickstart.md)
- Points: 2
- Comments: 0

## Topic Body

- 최신 _llama.cpp Portable Zip_을 사용하여 Xeon에서 1 또는 2개의 Arc A770으로 **DeepSeek-R1-671B-Q4_K_M**을 실행할 수 있음  
- 이 가이드는 Intel GPU에서 `ipex-llm`을 사용하여 llama.cpp를 직접 실행하는 방법을 설명  
  
#### 지원 환경  
- Intel Core Ultra 프로세서  
- Intel Core 11세대 - 14세대 프로세서  
- Intel Arc A-Series GPU  
- Intel Arc B-Series GPU  
  
#### 목차  
- Windows 빠른 시작  
  - 사전 준비  
  - 1단계: 다운로드 및 압축 해제  
  - 2단계: 런타임 구성  
  - 3단계: GGUF 모델 실행  
- Linux 빠른 시작  
  - 사전 준비  
  - 1단계: 다운로드 및 추출  
  - 2단계: 런타임 구성  
  - 3단계: GGUF 모델 실행  
- (새로운 기능) FlashMoE를 사용한 DeepSeek V3/R1 671B 실행  
- 팁 및 문제 해결  
  - 오류: 다른 sycl 장치 감지됨  
  - 다중 GPU 사용  
  - 성능 환경  
- 자세한 내용  
  
#### Windows 빠른 시작  
  
##### 사전 준비  
- GPU 드라이버 버전 확인 및 필요 시 업데이트  
  - Intel Core Ultra 프로세서 또는 Intel Arc B-Series GPU의 경우 최신 드라이버 권장  
  - 기타 Intel iGPU/dGPU의 경우 드라이버 버전 32.0.101.6078 권장  
  
##### 1단계: 다운로드 및 압축 해제  
- Windows 사용자는 IPEX-LLM llama.cpp portable zip을 다운로드하고 폴더에 압축 해제  
  
##### 2단계: 런타임 구성  
- "명령 프롬프트"를 열고 `cd /d PATH\TO\EXTRACTED\FOLDER` 명령어로 폴더에 접근  
- GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨  
  - `set SYCL_CACHE_PERSISTENT=1` 설정  
- 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인  
  
##### 3단계: GGUF 모델 실행  
- 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사  
- 모델 경로를 설정한 후 `llama-cli.exe` 명령어로 실행  
  
#### Linux 빠른 시작  
  
##### 사전 준비  
- GPU 드라이버 버전 확인 및 필요 시 업데이트  
- Intel 클라이언트 GPU 드라이버 설치 가이드에 따라 드라이버 설치 권장  
  
##### 1단계: 다운로드 및 추출  
- Linux 사용자는 IPEX-LLM llama.cpp portable tgz를 다운로드하고 폴더에 추출  
  
##### 2단계: 런타임 구성  
- "터미널"을 열고 `cd /PATH/TO/EXTRACTED/FOLDER` 명령어로 폴더에 접근  
- GPU 가속을 사용하기 위해 몇 가지 환경 변수가 필요하거나 권장됨  
  - `export SYCL_CACHE_PERSISTENT=1` 설정  
- 다중 GPU 사용자는 특정 GPU 선택 방법을 팁에서 확인  
  
##### 3단계: GGUF 모델 실행  
- 커뮤니티 GGUF 모델을 로컬 디렉토리에 다운로드 또는 복사  
- 모델 경로를 설정한 후 `./llama-cli` 명령어로 실행  
  
#### FlashMoE for DeepSeek V3/R1  
- FlashMoE는 llama.cpp 기반의 명령줄 도구로, MoE 모델에 최적화됨  
- Linux 플랫폼에서 사용 가능  
- 테스트된 MoE GGUF 모델: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K 등  
  
#### 팁 및 문제 해결  
  
##### 오류: 다른 sycl 장치 감지됨  
- 서로 다른 sycl 장치가 감지되면 성능이 가장 느린 장치에 맞춰 제한됨  
- `SYCL_DEVICE_CHECK=0` 설정으로 이 검사를 비활성화하고 모든 장치를 사용할 수 있음  
  
##### 다중 GPU 사용  
- 여러 Intel GPU가 있는 경우 기본적으로 모든 GPU에서 실행됨  
- 특정 GPU를 사용하려면 `ONEAPI_DEVICE_SELECTOR` 환경 변수를 설정  
  
##### 성능 환경  
- `SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS` 설정으로 성능 향상 가능  
- 이 모드가 성능을 향상시키지만 예외가 발생할 수 있음  
  
이 가이드는 Intel GPU에서 llama.cpp를 효율적으로 실행하기 위한 방법을 제공하며, 다양한 설정과 최적화 방법을 포함함.

## Comments



_No public comments on this page._
