$2000 EPYC 서버에서 DeepSeek R1 671b 모델을 로컬 실행 하는 법

(digitalspaceport.com)

3P by GN⁺ 9달전 | ★ favorite | 댓글 1개

AMD EPYC Rome 시스템을 기반으로 한 Deepseek AI Rig는 뛰어난 성능을 제공함
Q4 671b 모델에서 4.25에서 3.5 TPS를 기록하며, 이는 CPU만으로도 충분히 실행 가능함
이 시스템은 대규모 GPU VRAM 없이도 작동 가능하며, 기술적 도전을 즐기는 사람들에게 재미있는 프로젝트가 될 수 있음.
디스틸드 버전은 성능이 떨어지므로 "풀 모델"을 사용하는 것을 권장
- 16K 이상의 컨텍스트 윈도우를 지원하여 더 나은 성능을 제공함

Local AI CPU Compute Hardware

기존의 쿼드 3090 가이드에 따라 구성된 시스템은 여전히 강력함. MZ32-AR0 메인보드는 512GB에서 1TB의 시스템 RAM을 저렴하게 구성할 수 있게 해줌. 2400 DDR4 RAM을 사용 중이나, 3200 속도의 DDR4 ECC RAM을 사용하면 성능이 향상될 가능성이 있음.
구성 요소 및 비용:
- 랙 프레임: $55
- MZ32-AR0 마더보드: $500
- 420mm 수냉쿨러 Corsair h170i elite capellix xt: $170
- 64코어 AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
총 비용: 약 $2000

랙 조립

기존 가이드와 동일하게 조립하되, GPU와 라이저 카드는 제외함
추후 GPU를 추가할 계획이라면, 처음부터 1500W 또는 1600W PSU를 사용하는 것이 좋음
RAM 스틱의 온도를 낮추기 위해 80mm 팬 4개를 사용하여 팬 월을 구성하는 것을 권장함

마더보드 업그레이드 참고 사항

AMD EPYC 7V13 CPU를 사용할 경우, MZ32-AR0 V3 버전의 마더보드를 사용하는 것이 좋음
V1 버전의 마더보드는 Milan CPU를 지원하지 않을 수 있으므로, BIOS 업데이트를 통해 V3로 업그레이드해야 함

로컬 AI 셀프 호스티드 소프트웨어 설정

Ubuntu 24.04 서버 버전을 설치하는 것을 권장
BMC 설정을 통해 네트워크 IP 설정을 고정 IP로 설정함
BIOS 설정에서 다음과 같은 변경을 수행함:
- NPS를 1로 설정
- CCD를 Auto로 설정
- SMT 비활성화
- SVM 비활성화
- IOMMU 비활성화
- cTDP를 200으로 설정
- deterministic control을 manual로 설정하고, 슬라이더를 performance로 설정
- quick power policy를 performance로 설정
- BoostFMax를 manual로 설정하고, 값을 3400으로 설정

Ollama 설치

다음 명령어를 사용하여 Ollama를 설치:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

환경 변수를 설정하고, ollama.service 파일을 생성하여 서비스로 등록함

DeepSeek 671b 모델 다운로드

다음 명령어를 사용하여 DeepSeek 671b 모델을 다운로드함:
```
ollama pull deepseek-r1:671b  
```
이 모델은 약 400GB의 디스크 공간을 차지하므로, 충분한 저장 공간을 확보해야 함

OpenWEBUI 설치

Docker를 사용하여 OpenWEBUI를 설치함
Docker Compose를 사용하여 OpenWEBUI 서비스를 설정하고 실행함

OpenWEBUI와 Ollama 연결

OpenWEBUI의 설정에서 Ollama 서버를 추가하고, 연결 상태를 확인함
고급 매개변수에서 GPU 설정, Reasoning Effort, Context Length, num_thread 등을 설정함

테스트 실행

OpenWEBUI에서 새로운 채팅을 시작하고, DeepSeek-r1:671b 모델을 선택하여 테스트 대화를 진행함

이 가이드를 따르면, $2000 정도의 예산으로 DeepSeek R1 671b 모델을 로컬에서 실행할 수 있음

▲

GN⁺ 9달전 [-]

Hacker News 의견

671B 모델을 Q4 양자화로 단일 소켓 Epyc 서버에서 실행하는 비용은 $2K이며, 512GB RAM을 사용함. Q8에서는 듀얼 소켓 Epyc 서버에서 768GB RAM으로 6-8 TPS를 제공하며 $6K의 비용이 듦. RAM 속도가 TPS에 미치는 영향을 궁금해함.
온라인에서 R1의 비용은 $2/MTok이며, 이 장비는 4 tok/s 이상을 수행하여 시간당 $0.04의 비용이 듦. 전력 비용은 시간당 $0.20로 추정됨. 프라이버시를 제외하고는 큰 의미가 없다고 생각함.
현재 AI의 이상한 점은 최고의 모델을 실행하고 싶지만 하드웨어 비용이 비싸다는 것임. 1990년대에는 저렴한 하드웨어로 Linux를 실행할 수 있었음. 최신 AI 모델은 더 많은 RAM이 필요함. 과거에도 이런 일이 있었는지 궁금해함. 컴퓨터 게임이 좋은 예일 수 있음.
작은 모델(33b-70b)로 5-10 tokens/sec를 얻는 것이 더 흥미로울 것이라고 생각함. $3k의 GPU나 $2k의 장비에 돈을 쓰고 싶지 않음.
영어와 스페인어 번역만 하는 작은 모델이나 유닉스 유틸리티와 bash를 이해하는 모델이 의미가 있는지 궁금해함. 훈련 내용을 제한하는 것이 결과 품질이나 모델 크기에 영향을 미치는지 모름.
EPYC 9274F와 384GB RAM으로 워크스테이션을 구축했으나, 기대한 성능을 얻지 못함. 다양한 벤치마크 테스트를 수행했으나 Fujitsu 벤치마크의 절반도 안 되는 결과를 얻음.
$3000 NVIDIA Digits가 더 자주 언급되지 않는 것이 놀라움. AI에 회의적이었으나, 이제는 DeepSeek을 로컬에서 실행할 계획임.
$2K로 구매할 수 있는 것이 놀라움. 저전력 데스크탑을 구축하는 데 대한 제안을 찾고 있음.
유튜버로서 전력 및 RAM 속도에 대한 통계를 공유함. 유휴 전력은 60w, 로드 전력은 260w이며, RAM 속도는 2400임.
r6a.16xlarge에서 모델을 실행했으나 첫 프롬프트 이후 모델 로드에 시간이 많이 걸림. 512GB RAM으로 4k 이상의 컨텍스트 크기를 사용할 수 없음. 모델 설정에 익숙하지 않아 놓친 부분이 있을 수 있음.

답변달기