1P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Nvidia Grace-Hopper GH200 서버를 개인용 AI 데스크톱으로 개조한 실험으로, 235B 파라미터 모델을 로컬에서 실행할 수 있는 수준의 성능 확보
  • Reddit에서 7,500유로에 중고 GH200 시스템을 구입해, 데이터센터용 수랭 서버공랭 데스크톱으로 재조립
  • 냉각·전원·센서 오류 등으로 GPU 온도 1,677만°C 표시, 팬 회로 손상, 수동 납땜 복구 등 다수의 하드웨어 트러블슈팅 수행
  • 최종적으로 4개의 수랭 쿨러, CNC 가공 어댑터, 3D 프린팅 부품을 조합해 안정적인 시스템 완성
  • 총비용 약 9,000유로로, 단일 H100 GPU 가격보다 저렴하게 초고성능 AI 워크스테이션 구축

Grace-Hopper 서버 구입과 사양

  • Reddit의 r/LocalLLaMA 게시판에서 10,000유로짜리 GH200 서버 매물을 발견, 흥정 끝에 7,500유로에 구매
    • 구성: 2× Grace-Hopper Superchip, 2× 72코어 Grace CPU, 2× H100 GPU, 480GB LPDDR5X, 96GB HBM3, 총 1,152GB 고속 메모리
    • NVLink-C2C 대역폭 900GB/s, 전력 1,000~2,000W, 3,000W PSU 포함
  • 판매자는 GPTshop.ai로, Nvidia 서버를 데스크톱으로 개조해 판매하는 업체
    • 시스템은 원래 수랭식 서버공랭식으로 변환한 ‘프랑켄시스템’ 형태였음
    • 외관이 투박하고 랙 장착 불가, 48V 전원 공급 장치 부착

서버 분해 및 청소

  • 서버는 심한 먼지 오염 상태였으며, 8개의 고출력 팬이 진공청소기 수준의 소음을 발생
    • 가정 내 사용 불가 수준으로 시끄러워, 분해 후 청소 및 재조립 진행
  • 이소프로판올 수 리터를 사용해 메인보드 전체 세척, 히팅 플로어 위에서 일주일 건조
  • Grace-Hopper 모듈 내부 상태를 확인하기 위해 분해, 내부 구조 탐색

수랭 시스템 재구성

  • 누수 위험 때문에 맞춤형 블록 대신 Arctic Liquid Freezer III 420 AIO 쿨러 4개 사용
    • GPU·CPU 다이 치수 측정 후 Fusion 360으로 어댑터 블록 설계
    • Bambu X1 3D 프린터로 프로토타입 제작, 이후 CNC 가공으로 최종 부품 완성
  • 가공 후 잔유 오일 제거 및 장착 완료, 냉각 성능 확보

데스크톱 조립

  • ProfilAlu 알루미늄 프로파일로 프레임 제작, Fusion 360으로 설계
    • 수십 개의 PCB·필터 마운트 부품을 3D 프린팅으로 제작
    • 수 킬로그램의 필라멘트를 사용해 구조 안정화

주요 문제 발생

  • 팬 전원 연결 중 ‘팝’ 소리와 연기 발생, 일부 팬 헤더 회로 손상
    • 잘못된 전류 계산으로 MOSFET 손상 추정
    • 팬 전원은 별도 12V-5A 어댑터로 대체
  • 팬 오류로 BMC(Baseboard Management Controller) 가 부팅 차단
    • phosphor-sensor-monitor.service 비활성화로 팬 체크 우회

GPU 온도 오류와 회로 수리

  • 부팅 중 GPU 온도 16,777,214°C로 표시, 시스템 자동 종료
    • 이는 24비트 정수 최대값(2²⁴-2) 으로, 센서 신호 오류를 의미
  • 현미경으로 점검 결과, 100nF 커패시터와 4.7kΩ 저항 손상 확인
    • 미세 납땜으로 회로 복구, UV 마스크로 고정
    • 재조립 후 정상 부팅 성공

최종 구성 및 성능

  • 추가 제작 부품:
    • 8TB E1.S SSD 마운트, 3kW PSU 후면 패널, 라디에이터 보호용 메시
  • GPU 초기화 문제는 NVLink 비활성화 설정으로 해결
    • /etc/modprobe.d/nvidia-disable-nvlink.confNVreg_NvLinkDisable=1 추가

벤치마크 결과

  • 144코어로 Llama.cpp 빌드 90초 소요, 대형 모델 테스트 결과:
    • gpt-oss-120b-Q4_K_M: 프롬프트 2974.79, 토큰 195.84
    • GLM-4.5-Air-Q4_K_M: 프롬프트 1936.65, 토큰 100.71
    • Qwen3-235B-A22B-Instruct: 프롬프트 1022.79, 토큰 65.90
  • GPU당 약 300W 소비, 최대치(900W) 대비 여유 있음

비용 내역

  • Grace-Hopper 서버 €7,500, SSD €250, CNC 어댑터 €700, 수랭 쿨러 €180
  • 프레임 €200, 유리 패널 €40, 3D 프린팅 재료 €40, 기타 부품 €50
  • 세척용 이소프로판올 €20, 12V 전원 €10, LED 조명 €10
  • 총비용 약 €9,000, 단일 H100 GPU보다 저렴

결론

  • 235B 파라미터 모델을 로컬에서 실행 가능한 데스크톱 완성
  • 데이터센터급 하드웨어를 개인용으로 전환하는 과정에서 센서 오류, 회로 손상, 냉각 문제 등 다수의 난관 극복
  • 결과적으로 고성능 AI 연구용 워크스테이션을 저비용으로 구축한 사례
Hacker News 의견들
  • 나는 데이터센터급 AI 하드웨어를 사서 액체 냉각 → 공랭 → 다시 액체 냉각으로 개조하며, GPU 온도가 1,600만 도로 표시되는 등 수많은 위기를 겪은 끝에, 집에서 235B 파라미터 모델을 돌릴 수 있는 데스크톱을 완성했음
    이건 무모한 결정과 창의적 문제 해결, 그리고 데이터센터 장비를 일상용으로 바꾸려는 시도의 이야기임

    • NVLINK를 완전히 무시하도록 드라이버에 지시하면 GPU들이 PCIe를 통해 독립적으로 초기화됨을 발견했음
      이걸 찾는 데 일주일 걸렸고, Reddit 덕분에 해결했음. 이런 문제가 모든 데이터센터에서도 생길 수 있는지 궁금함
    • Reddit에서 같은 글을 보고 나도 살까 고민했는데, 미국 거주라 포기했음. 사기가 아니었다니 다행임
    • 현금으로 7,500유로를 냈다고 했는데, 그걸 전부 지폐로 인출한 건지 궁금함. 은행에서 그렇게 큰 금액을 어떻게 찾았는지 알고 싶음
    • 납땜 부품을 에폭시로 고정했다는 게 인상적임. 납땜 실력에 자신이 많아야 가능할 듯. 글루건은 없었는지 궁금함
  • 나도 비슷한 경험이 있음. 3년 동안 아들과 함께 쓸 랙형 게임 서버를 만들고 싶었는데, 집이 좁고 아내가 허락하지 않아서 부모님 댁의 PV 발전소(90kWp)와 랙 서버를 활용했음
    두 달 전 eBay에서 Supermicro SYS-7049GP-TRT를 1,400유로에 구입했는데, 내부를 열어보니 Nvidia V100S 32GB가 들어 있었음. 그걸 1,600유로에 팔고 Xeon 6254 CPU 두 개를 사서 교체함. 이후 Blackwell RTX 4000 Pro 두 개를 사서 아들과 게임도 하고 LLM 실험도 가능해졌음
    이 케이스는 4개의 듀얼 GPU를 장착할 수 있어, 언젠가 RTX 6000 네 개(총 384GB VRAM)로 업그레이드할 수도 있을 듯함. 중고 엔터프라이즈 장비는 튼튼하고 가성비가 좋아서 정말 즐거운 취미임

  • 7.5k 유로짜리 20kg 서버를 5유로짜리 IKEA LACK 테이블 위에 올려둔 게 웃김. LACK은 최대 하중이 25kg이라 위험해 보임

    • 실제로는 원래 케이스가 20kg이었고, 지금은 알루미늄 프레임과 유리 패널을 추가해서 40kg쯤 됨. 이제 보니 LACK 위에 두면 안 될 듯함
    • 하지만 LACK 테이블은 의외로 튼튼함. 서버나 네트워크 장비용으로 많이 쓰이고, LackRack 위키에도 사례가 많음. 나도 100kg 넘게 올려본 적 있음
    • 그래도 25%의 안전 마진은 있겠지 하는 농담임
  • “직접 가지러 가느라 두 시간 운전했다”는 말이 재밌음. 말 그대로 Your mileage may vary

  • GPU를 작동시키는 과정이 고통스러웠다고 해서, 후속 탐험가들을 위해 설치 명령을 남겼다는 게 인상적임
    NVIDIA-Linux-aarch64 드라이버를 설치해야 했고, 이런 불가해한 명령어를 입력할 때마다 “나도 저기 있었지” 하는 공감이 생김

  • 진지하게 묻자면, 이런 장비가 실제로 게임 성능도 좋은지 궁금함. AI/ML용으로 최적화되어 있어서 오히려 일반 게임은 잘 안 돌아가는 건 아닌지
    그리고 “숲속 농가로 갔다”는 부분에서 혹시 위험하지 않았는지도 궁금했음

    • 판매자가 “서버는 흰색 밴 뒤쪽에 있다”며 차 뒤를 보여줬을 때는 좀 무서웠음. 다행히 그 뒤에 작업장을 보고 안심했음
    • 이런 GPU들은 HDMI나 DisplayPort 출력이 없어서, 게임을 하려면 VM을 통해서 실행해야 함
    • 게임용으로는 RTX PRO 6000 Blackwell + AMD 9800X3D + 저지연 RAM + NVMe 조합이 최적임. 이 이상은 수익 대비 효율이 떨어짐. ARM 기반 서버 CPU는 DRM 문제도 생김
    • LTT 영상에서도 비슷한 AI용 GPU를 테스트했는데, 게이밍 성능은 형편없음. 중급 소비자용 카드가 1/10 가격에 더 나은 결과를 냈음
  • 이런 글이 정말 멋짐. 이런 DIY 성공기가 Hacker News의 묘미임

    • 맞음. 질투심을 자극하면서도 “나도 할 수 있겠다”는 영감을 줌
  • 물론 여전히 좋은 거래지만, H100의 신품가와 비교하는 건 다소 과장임. 지금은 RTX 6000 Pro를 7~8천 달러에 살 수 있고, 성능도 비슷함. 게다가 일반 워크스테이션에도 장착 가능함. 중고 엔터프라이즈 장비의 감가상각은 매우 큼

    • 그래도 여전히 훌륭한 거래임. 이유는 RAM/VRAM의 미묘한 차이 때문임
      Blackwell은 FP8 기준으로 H100보다 두 배 빠르지만, FP4 비교라서 실제로는 다름. VRAM 대역폭도 HBM3 기준으로 4.9TB/s라 RTX 6000 Pro의 1.8TB/s보다 2.5배 빠름
      NVLink-C2C는 카드 간 900GB/s로 PCIe5 대비 5배 수준이라, 대형 LLM에서는 이게 병목을 줄여줌
      예를 들어 GPT-OSS-120B 벤치마크에서 RTX 6000 Pro는 초당 145토큰, GH200은 195토큰을 생성함
    • 게다가 그는 H100 두 개를 가지고 있음. RTX 6000 Pro 두 개를 사려면 1.5만~1.6만 달러가 필요하고, 포함된 RAM만 해도 7천 달러 이상 가치가 있음
  • 진짜 사이버펑크 꿈을 현실에서 사는 느낌임. 이런 시도를 할 용기가 대단함

  • 중고 엔터프라이즈 장비를 살 수 있는 샵 추천을 부탁함. 대부분 캘리포니아에 있는 듯한데, NY/NJ 지역에도 있는지 궁금함

    • eBay에서 여러 제품을 올린 판매자를 찾아 추적하면 됨. 전국적으로 그런 셀러들이 꽤 있음