# $2000 EPYC 서버에서 DeepSeek R1 671b 모델을 로컬 실행 하는 법

> Clean Markdown view of GeekNews topic #19008. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19008](https://news.hada.io/topic?id=19008)
- GeekNews Markdown: [https://news.hada.io/topic/19008.md](https://news.hada.io/topic/19008.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-02T09:11:30+09:00
- Updated: 2025-02-02T09:11:30+09:00
- Original source: [digitalspaceport.com](https://digitalspaceport.com/how-to-run-deepseek-r1-671b-fully-locally-on-2000-epyc-rig/)
- Points: 3
- Comments: 1

## Topic Body

- AMD EPYC Rome 시스템을 기반으로 한 Deepseek AI Rig는 뛰어난 성능을 제공함  
- Q4 671b 모델에서 4.25에서 3.5 TPS를 기록하며, 이는 CPU만으로도 충분히 실행 가능함  
- 이 시스템은 대규모 GPU VRAM 없이도 작동 가능하며, 기술적 도전을 즐기는 사람들에게 재미있는 프로젝트가 될 수 있음.  
- 디스틸드 버전은 성능이 떨어지므로 "풀 모델"을 사용하는 것을 권장  
  - 16K 이상의 컨텍스트 윈도우를 지원하여 더 나은 성능을 제공함  
  
### Local AI CPU Compute Hardware  
  
- 기존의 쿼드 3090 가이드에 따라 구성된 시스템은 여전히 강력함. MZ32-AR0 메인보드는 512GB에서 1TB의 시스템 RAM을 저렴하게 구성할 수 있게 해줌. 2400 DDR4 RAM을 사용 중이나, 3200 속도의 DDR4 ECC RAM을 사용하면 성능이 향상될 가능성이 있음.  
- **구성 요소 및 비용**:  
  - **랙 프레임:** $55  
  - **MZ32-AR0 마더보드:** $500  
  - **420mm 수냉쿨러 Corsair h170i elite capellix xt:** $170  
  - **64코어 AMD EPYC 7702:** $650  
  - **512GB 2400 ECC RAM:** $400  
  - **1TB NVMe – Samsung 980 Pro:** $75  
  - **850W PSU:** $80  
- **총 비용:** 약 $2000  
  
### 랙 조립  
  
- 기존 가이드와 동일하게 조립하되, GPU와 라이저 카드는 제외함  
- 추후 GPU를 추가할 계획이라면, 처음부터 **1500W 또는 1600W PSU**를 사용하는 것이 좋음  
- RAM 스틱의 온도를 낮추기 위해 **80mm 팬 4개**를 사용하여 팬 월을 구성하는 것을 권장함  
  
### 마더보드 업그레이드 참고 사항  
  
- **AMD EPYC 7V13** CPU를 사용할 경우, **MZ32-AR0 V3 버전**의 마더보드를 사용하는 것이 좋음  
- V1 버전의 마더보드는 Milan CPU를 지원하지 않을 수 있으므로, BIOS 업데이트를 통해 V3로 업그레이드해야 함  
  
### 로컬 AI 셀프 호스티드 소프트웨어 설정  
  
- **Ubuntu 24.04 서버 버전**을 설치하는 것을 권장  
- **BMC 설정**을 통해 네트워크 IP 설정을 고정 IP로 설정함  
- **BIOS 설정**에서 다음과 같은 변경을 수행함:  
  - NPS를 1로 설정  
  - CCD를 Auto로 설정  
  - SMT 비활성화  
  - SVM 비활성화  
  - IOMMU 비활성화  
  - cTDP를 200으로 설정  
  - deterministic control을 manual로 설정하고, 슬라이더를 performance로 설정  
  - quick power policy를 performance로 설정  
  - BoostFMax를 manual로 설정하고, 값을 3400으로 설정  
  
### Ollama 설치  
  
- 다음 명령어를 사용하여 **Ollama**를 설치:  
  
  ```  
  curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
  sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
  sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
  sudo usermod -a -G ollama $(whoami)  
  ```  
  
- 환경 변수를 설정하고, **ollama.service** 파일을 생성하여 서비스로 등록함  
  
### DeepSeek 671b 모델 다운로드  
  
- 다음 명령어를 사용하여 **DeepSeek 671b** 모델을 다운로드함:  
  
  ```  
  ollama pull deepseek-r1:671b  
  ```  
  
- 이 모델은 약 **400GB**의 디스크 공간을 차지하므로, 충분한 저장 공간을 확보해야 함  
  
### OpenWEBUI 설치  
  
- **Docker**를 사용하여 **OpenWEBUI**를 설치함  
- **Docker Compose**를 사용하여 **OpenWEBUI** 서비스를 설정하고 실행함  
  
### OpenWEBUI와 Ollama 연결  
  
- **OpenWEBUI**의 설정에서 **Ollama 서버**를 추가하고, 연결 상태를 확인함  
- 고급 매개변수에서 **GPU 설정**, **Reasoning Effort**, **Context Length**, **num_thread** 등을 설정함  
  
### 테스트 실행  
  
- **OpenWEBUI**에서 새로운 채팅을 시작하고, **DeepSeek-r1:671b** 모델을 선택하여 테스트 대화를 진행함  
  
이 가이드를 따르면, $2000 정도의 예산으로 **DeepSeek R1 671b** 모델을 로컬에서 실행할 수 있음

## Comments


### Comment 34017

- Author: neo
- Created: 2025-02-02T09:11:31+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42897205) 
- 671B 모델을 Q4 양자화로 단일 소켓 Epyc 서버에서 실행하는 비용은 $2K이며, 512GB RAM을 사용함. Q8에서는 듀얼 소켓 Epyc 서버에서 768GB RAM으로 6-8 TPS를 제공하며 $6K의 비용이 듦. RAM 속도가 TPS에 미치는 영향을 궁금해함.
  
- 온라인에서 R1의 비용은 $2/MTok이며, 이 장비는 4 tok/s 이상을 수행하여 시간당 $0.04의 비용이 듦. 전력 비용은 시간당 $0.20로 추정됨. 프라이버시를 제외하고는 큰 의미가 없다고 생각함.

- 현재 AI의 이상한 점은 최고의 모델을 실행하고 싶지만 하드웨어 비용이 비싸다는 것임. 1990년대에는 저렴한 하드웨어로 Linux를 실행할 수 있었음. 최신 AI 모델은 더 많은 RAM이 필요함. 과거에도 이런 일이 있었는지 궁금해함. 컴퓨터 게임이 좋은 예일 수 있음.

- 작은 모델(33b-70b)로 5-10 tokens/sec를 얻는 것이 더 흥미로울 것이라고 생각함. $3k의 GPU나 $2k의 장비에 돈을 쓰고 싶지 않음.

- 영어와 스페인어 번역만 하는 작은 모델이나 유닉스 유틸리티와 bash를 이해하는 모델이 의미가 있는지 궁금해함. 훈련 내용을 제한하는 것이 결과 품질이나 모델 크기에 영향을 미치는지 모름.

- EPYC 9274F와 384GB RAM으로 워크스테이션을 구축했으나, 기대한 성능을 얻지 못함. 다양한 벤치마크 테스트를 수행했으나 Fujitsu 벤치마크의 절반도 안 되는 결과를 얻음.

- $3000 NVIDIA Digits가 더 자주 언급되지 않는 것이 놀라움. AI에 회의적이었으나, 이제는 DeepSeek을 로컬에서 실행할 계획임.

- $2K로 구매할 수 있는 것이 놀라움. 저전력 데스크탑을 구축하는 데 대한 제안을 찾고 있음.

- 유튜버로서 전력 및 RAM 속도에 대한 통계를 공유함. 유휴 전력은 60w, 로드 전력은 260w이며, RAM 속도는 2400임.

- r6a.16xlarge에서 모델을 실행했으나 첫 프롬프트 이후 모델 로드에 시간이 많이 걸림. 512GB RAM으로 4k 이상의 컨텍스트 크기를 사용할 수 없음. 모델 설정에 익숙하지 않아 놓친 부분이 있을 수 있음.