GN⁺: 저예산으로 개인용 AI 컴퓨터 구축하기
(ewintr.nl)- AI 도구 개발에 많은 돈이 투자되고 있으며, 많은 서비스가 손실을 감수하면서 운영되고 있음
- 대형 기술 기업의 서비스들은 시장을 장악하기 위해 무료 또는 저렴하게 제공중이며, 결굴엔 "광고·정치적 이해관계에 의해 AI 모델이 조작될 가능성이 높음"
- 해결책은 "자신만의 AI 모델을 직접 운영하는 것"
- DeepSeek와 같은 회사들은 그들의 모델을 무료로 공개하여 시장을 흔들고 있음. 이러한 모델들은 편향을 제거할 수 있으며, 개인 하드웨어에서 실행 가능함
개인 AI 컴퓨터 구축의 도전 과제
- LLM을 로컬에서 실행하려면 Nvidia의 강력한 비디오 카드나 Apple을 구입해야 함
- 메모리가 많을수록 더 큰 모델을 실행할 수 있으며, 이는 출력 품질을 크게 향상시킴
- Nvidia GPU 또는 Apple 기기 필요 (둘 다 고가)
- 최소 24GB 이상의 VRAM 또는 RAM 필요
- 비용 절감 방법: 중고 장비를 구입하는 것도 하나의 방법이며, 메모리 대역폭과 다른 사양도 중요함
저비용 AI 컴퓨터 구축 과정
- 목표: 1700유로 내외로 AI 모델을 로컬에서 실행할 수 있는 시스템 구축
-
최종 구성:
- HP Z440 워크스테이션 (Xeon 12코어, 128GB RAM)
- Nvidia Tesla P40 GPU 2개 (각 24GB VRAM, 총 48GB)
- NZXT C850 Gold 파워 서플라이
- Gainward GT 1030 (더미 GPU, 화면 출력용)
- 맞춤형 냉각 팬 및 전원 어댑터
주요 기술적 문제와 해결 방법
1. 서버용 GPU의 냉각 문제
- Tesla P40은 서버 환경에서 사용되도록 설계되어 자체 팬이 없음
- 해결책: 3D 프린팅된 팬 마운트와 강제 공기 흐름 조절
- 팬 속도를 조절해 온도와 소음을 적절히 균형 조정
2. HP 워크스테이션의 호환성 문제
- HP가 자체 부품만 사용하도록 제한
- 파워 서플라이 및 보드 연결 어댑터 추가 구매 필요
3. BIOS의 부팅 문제
- Tesla P40에는 디스플레이 출력 포트가 없음 → 부팅 불가
- 저가형 GT 1030 GPU 추가하여 해결
성능 테스트 결과
1. 추론 속도 (Tokens per second)
- Mistral-Small (24B 모델): 15.23
- Gemma2 (27B 모델): 13.90
- Qwen2.5-Coder (32B 모델): 10.75
- Llama3.3 (70B 모델): 5.35
- DeepSeek-R1 (70B 모델): 5.30
2. 전력 소비량
- 컴퓨터가 대기 상태일 때는 약 80W를 사용
- 32B 모델을 로드하면 123W, 실행하면 241W까지 올라감
- 70B 모델의 경우, 로드 시 166W, 실행 중에는 293W까지 소비함
- 즉, 모델 크기가 커질수록 전력 사용량이 증가하며, 모델을 GPU에 로드한 상태에서도 상당한 전력을 소비하기 때문에, 필요할 때만 모델을 유지하는 전략이 중요
결론: 개인 AI 서버 구축, 가치 있는 선택인가?
- 완전히 독립적인 AI 시스템 구축 성공
- 비교적 저렴한 가격으로 중형 모델을 로컬에서 실행 가능
- 최신 고가 장비 없이도 AI 모델을 운영할 수 있다는 점에서 만족
- 장기적인 AI 기술 변화에 대비할 수 있는 유연한 시스템 구축
| 같은 가격(1799달러)으로 48GB 통합 메모리와 m4 pro가 있는 Mac Mini를 구입할 수 있음. 전력 소모가 적고 조용하며, 이 설정보다 성능이 뛰어날 가능성이 있음. 이 글을 즐겁게 읽었지만, 같은 상황이라면 Mac을 구입할 것임.
하고싶은 말이었는데 Hacker News 의견에 있네요.
토큰값이 점점 저렴해지고 있어서 파인튜닝하거나 이미지 뽑아낼거 아니면 굳이... 싶은 생각은 있네요
Hacker News 의견
-
K80와 M40을 eBay에서 저렴하게 구입하여 비슷한 작업을 했음. K80의 드라이버는 매우 고통스러웠음. 24GB VRAM이 50달러라는 점은 매력적이지만, 드라이버 문제로 인해 추천하지 않음. HP 워크스테이션에 1200와트 전원 공급 장치가 있어 GPU를 설치할 수 있었음. 이 GPU들은 자체 냉각 기능이 없으므로 3D 프린터로 브래킷을 제작하고 Noctua 팬을 부착하여 24/7로 작동시켰음. 예상보다 훨씬 잘 작동했으며 온도가 60도를 넘지 않았음. CPU도 이 방법 덕분에 이득을 봄. 팬은 케이스 앞뒤에 위치하며, 앞쪽 팬은 공기를 흡입하고 뒤쪽 팬은 배출함. GPU 앞에도 두 개의 팬이 있음. 워크스테이션은 600달러에 리퍼비시 제품을 구입했고, GPU는 120달러, 팬은 약 60달러에 구입했음. STL 파일은 아직 업로드하지 않았음. 매우 특수한 사용 사례이기 때문임.
-
같은 가격(1799달러)으로 48GB 통합 메모리와 m4 pro가 있는 Mac Mini를 구입할 수 있음. 전력 소모가 적고 조용하며, 이 설정보다 성능이 뛰어날 가능성이 있음. 이 글을 즐겁게 읽었지만, 같은 상황이라면 Mac을 구입할 것임.
-
로컬 LLM을 위한 머신을 구축하고 싶음. MBP M3 Max에서 128GB RAM으로 모델을 테스트했으며, 전용 로컬 서버를 원함. Proxmox를 사용해보고 싶음. OpenWebUI와 LibreChat을 로컬 "앱 서버"에서 실행 중이며 만족스러움. 하지만 더 강력한 장비를 구입할 때마다 ROI가 부족하다고 느낌. 특히 빠르게 변화하는 산업에서는 더욱 그렇음. 프라이버시는 무시할 수 없는 요소지만, 온라인 추론 비용을 이기기 어려움.
-
로컬에 호스팅된 모델은 장난감처럼 귀엽고 재미있는 농담을 작성하며, 개인적인 작업을 수행할 수 있음. 하지만 API를 통해 접근 가능한 모델과 비교하면 부족함. deepseek-r1-678b를 로컬에서 실행할 수 있다면 좋겠지만, 현재는 운영 비용이 자본 비용보다 큼.
-
중간 지점은 필요할 때 GPU VPS를 임대하는 것임. H100을 시간당 2달러에 사용할 수 있음. 완전히 로컬 오프라인만큼의 프라이버시는 아니지만, SASS API보다는 나음. 1~3년 후에는 로컬에서 유용한 것을 실행하는 것이 비용 효율적이 되기를 바람.
-
다른 사람들이 말했듯이, 고성능 Mac을 같은 가격에 사용할 수 있으며 전력 소모가 적음. Apple이 엔터프라이즈 AI 칩 시장에 진입하여 Nvidia와 경쟁하지 않는 이유가 궁금함. Apple은 자체 ASIC을 설계할 수 있을 것임.
-
"자신의 AI를 소유하라"는 집에서의 취미로는 훌륭하지만, 하드웨어에 많은 시간과 돈을 소비하게 됨. Mitko Vasilev의 드림 머신을 확인해보길 권장함. 명확한 사용 사례가 없다면 작은 모델이나 느린 토큰 생성 속도만 필요함. AI를 구축하고 배우려는 것이 목표라면 GPU/TPU를 필요할 때 임대하는 것이 경제적으로 나음.
-
2개의 Nvidia Tesla P40 카드를 660유로에 구입하는 것은 "예산 내"라고 생각하지 않음. 사람들이 "작은" 또는 "중간" 모델을 저렴한 카드로 사용할 수 있음. Nvidia Geforce RTX 3060 카드는 중고 시장에서 200~250유로에 구할 수 있음. 48GB VRAM은 예산 내라고 부르기에는 과도함. 이 설정은 반전문가 또는 전문가용임. 중간 또는 작은 모델을 사용하는 데는 타협이 필요하지만, 예산 내에서 타협하는 것도 중요함.
-
이런 투자를 하는 데 문제가 있는 이유는 다음 달에 더 나은 모델이 출시될 것이기 때문임. 더 많은 RAM이 필요하거나 현재 최고의 모델보다 적은 RAM이 필요할 수 있음. 클라우드 인프라를 사용하면 이 문제를 해결할 수 있음. 실행당 비용이 더 많이 들지만, 사용이 간헐적이라면 비용을 절약할 수 있음. HN 사용자들은 이 문제를 어떻게 처리하고 있는지 궁금함.
-
SBC 클러스터를 사용하여 LLM 추론을 실행해본 사람이 있는지 궁금함. 예를 들어 Radxa ROCK 5C는 32GB 메모리와 NPU를 가지고 있으며 약 300유로임. 현대 LLM의 아키텍처에 대해 잘 알지 못하지만, 여러 노드 간에 레이어를 분할할 수 있어야 함. 전송해야 할 데이터가 많지 않음. 현대 Mac이나 Nvidia GPU와 같은 성능은 아니겠지만, 수용 가능하고 많은 메모리를 저렴하게 얻을 수 있는 방법일 수 있음. CPU + GPU 추론의 최신 상태가 궁금함. 프롬프트 처리는 계산과 메모리 제약이 있지만, 토큰 생성은 주로 메모리 제약임. 초기 프롬프트 처리를 위해 GPU에 몇 개의 레이어를 로드하고, 이후 CPU 추론으로 전환하는 도구가 있는지 궁금함. 마지막 실험에서는 일부 레이어를 GPU에서 실행하고 일부는 CPU에서 실행할 수 있었음. 모든 것을 GPU에서 실행하고, 메모리 제약이 있는 토큰 생성 시 CPU로 전환하는 것이 더 효율적일 것 같음.