3P by neo 20일전 | ★ favorite | 댓글 1개
  • AMD EPYC Rome 시스템을 기반으로 한 Deepseek AI Rig는 뛰어난 성능을 제공함
  • Q4 671b 모델에서 4.25에서 3.5 TPS를 기록하며, 이는 CPU만으로도 충분히 실행 가능함
  • 이 시스템은 대규모 GPU VRAM 없이도 작동 가능하며, 기술적 도전을 즐기는 사람들에게 재미있는 프로젝트가 될 수 있음.
  • 디스틸드 버전은 성능이 떨어지므로 "풀 모델"을 사용하는 것을 권장
    • 16K 이상의 컨텍스트 윈도우를 지원하여 더 나은 성능을 제공함

Local AI CPU Compute Hardware

  • 기존의 쿼드 3090 가이드에 따라 구성된 시스템은 여전히 강력함. MZ32-AR0 메인보드는 512GB에서 1TB의 시스템 RAM을 저렴하게 구성할 수 있게 해줌. 2400 DDR4 RAM을 사용 중이나, 3200 속도의 DDR4 ECC RAM을 사용하면 성능이 향상될 가능성이 있음.
  • 구성 요소 및 비용:
    • 랙 프레임: $55
    • MZ32-AR0 마더보드: $500
    • 420mm 수냉쿨러 Corsair h170i elite capellix xt: $170
    • 64코어 AMD EPYC 7702: $650
    • 512GB 2400 ECC RAM: $400
    • 1TB NVMe – Samsung 980 Pro: $75
    • 850W PSU: $80
  • 총 비용: 약 $2000

랙 조립

  • 기존 가이드와 동일하게 조립하되, GPU와 라이저 카드는 제외함
  • 추후 GPU를 추가할 계획이라면, 처음부터 1500W 또는 1600W PSU를 사용하는 것이 좋음
  • RAM 스틱의 온도를 낮추기 위해 80mm 팬 4개를 사용하여 팬 월을 구성하는 것을 권장함

마더보드 업그레이드 참고 사항

  • AMD EPYC 7V13 CPU를 사용할 경우, MZ32-AR0 V3 버전의 마더보드를 사용하는 것이 좋음
  • V1 버전의 마더보드는 Milan CPU를 지원하지 않을 수 있으므로, BIOS 업데이트를 통해 V3로 업그레이드해야 함

로컬 AI 셀프 호스티드 소프트웨어 설정

  • Ubuntu 24.04 서버 버전을 설치하는 것을 권장
  • BMC 설정을 통해 네트워크 IP 설정을 고정 IP로 설정함
  • BIOS 설정에서 다음과 같은 변경을 수행함:
    • NPS를 1로 설정
    • CCD를 Auto로 설정
    • SMT 비활성화
    • SVM 비활성화
    • IOMMU 비활성화
    • cTDP를 200으로 설정
    • deterministic control을 manual로 설정하고, 슬라이더를 performance로 설정
    • quick power policy를 performance로 설정
    • BoostFMax를 manual로 설정하고, 값을 3400으로 설정

Ollama 설치

  • 다음 명령어를 사용하여 Ollama를 설치:

    curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
    sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
    sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
    sudo usermod -a -G ollama $(whoami)  
    
  • 환경 변수를 설정하고, ollama.service 파일을 생성하여 서비스로 등록함

DeepSeek 671b 모델 다운로드

  • 다음 명령어를 사용하여 DeepSeek 671b 모델을 다운로드함:

    ollama pull deepseek-r1:671b  
    
  • 이 모델은 약 400GB의 디스크 공간을 차지하므로, 충분한 저장 공간을 확보해야 함

OpenWEBUI 설치

  • Docker를 사용하여 OpenWEBUI를 설치함
  • Docker Compose를 사용하여 OpenWEBUI 서비스를 설정하고 실행함

OpenWEBUI와 Ollama 연결

  • OpenWEBUI의 설정에서 Ollama 서버를 추가하고, 연결 상태를 확인함
  • 고급 매개변수에서 GPU 설정, Reasoning Effort, Context Length, num_thread 등을 설정함

테스트 실행

  • OpenWEBUI에서 새로운 채팅을 시작하고, DeepSeek-r1:671b 모델을 선택하여 테스트 대화를 진행함

이 가이드를 따르면, $2000 정도의 예산으로 DeepSeek R1 671b 모델을 로컬에서 실행할 수 있음

Hacker News 의견
  • 671B 모델을 Q4 양자화로 단일 소켓 Epyc 서버에서 실행하는 비용은 $2K이며, 512GB RAM을 사용함. Q8에서는 듀얼 소켓 Epyc 서버에서 768GB RAM으로 6-8 TPS를 제공하며 $6K의 비용이 듦. RAM 속도가 TPS에 미치는 영향을 궁금해함.

  • 온라인에서 R1의 비용은 $2/MTok이며, 이 장비는 4 tok/s 이상을 수행하여 시간당 $0.04의 비용이 듦. 전력 비용은 시간당 $0.20로 추정됨. 프라이버시를 제외하고는 큰 의미가 없다고 생각함.

  • 현재 AI의 이상한 점은 최고의 모델을 실행하고 싶지만 하드웨어 비용이 비싸다는 것임. 1990년대에는 저렴한 하드웨어로 Linux를 실행할 수 있었음. 최신 AI 모델은 더 많은 RAM이 필요함. 과거에도 이런 일이 있었는지 궁금해함. 컴퓨터 게임이 좋은 예일 수 있음.

  • 작은 모델(33b-70b)로 5-10 tokens/sec를 얻는 것이 더 흥미로울 것이라고 생각함. $3k의 GPU나 $2k의 장비에 돈을 쓰고 싶지 않음.

  • 영어와 스페인어 번역만 하는 작은 모델이나 유닉스 유틸리티와 bash를 이해하는 모델이 의미가 있는지 궁금해함. 훈련 내용을 제한하는 것이 결과 품질이나 모델 크기에 영향을 미치는지 모름.

  • EPYC 9274F와 384GB RAM으로 워크스테이션을 구축했으나, 기대한 성능을 얻지 못함. 다양한 벤치마크 테스트를 수행했으나 Fujitsu 벤치마크의 절반도 안 되는 결과를 얻음.

  • $3000 NVIDIA Digits가 더 자주 언급되지 않는 것이 놀라움. AI에 회의적이었으나, 이제는 DeepSeek을 로컬에서 실행할 계획임.

  • $2K로 구매할 수 있는 것이 놀라움. 저전력 데스크탑을 구축하는 데 대한 제안을 찾고 있음.

  • 유튜버로서 전력 및 RAM 속도에 대한 통계를 공유함. 유휴 전력은 60w, 로드 전력은 260w이며, RAM 속도는 2400임.

  • r6a.16xlarge에서 모델을 실행했으나 첫 프롬프트 이후 모델 로드에 시간이 많이 걸림. 512GB RAM으로 4k 이상의 컨텍스트 크기를 사용할 수 없음. 모델 설정에 익숙하지 않아 놓친 부분이 있을 수 있음.