대형 GPU는 대형 PC가 필요하지 않다

▲

GN⁺ 5달전 | parent | ★ favorite | on: 대형 GPU는 대형 PC가 필요하지 않다(jeffgeerling.com)

Hacker News 의견들

로컬에서 LLM을 돌리려면 결국 GPU가 핵심임
그래서 GPU 옆에 붙일 수 있는 가장 저렴한 컴퓨터가 뭘까 고민 중임
나는 BAR 같은 문제를 이해하거나 고칠 능력은 없어서, 그냥 적당한 GPU를 꽂은 값싼 x86 박스를 만들어서 쓰고 있음
하지만 여전히 더 효율적인 방법이 있을 것 같다는 생각이 머릿속을 떠나지 않음
- 나는 로컬 LLM용 최적 하드웨어 조합을 모으는 크라우드소싱 사이트를 운영 중임
  사이트는 inferbench.com, 소스코드는 GitHub 저장소에 있음
- 아직은 단일 PCIe 장치로 의미 있는 성능을 내기 어려움
  GPU에 최소 128GB RAM이 필요하다고 봄
  CPU 성능은 낮아도 되지만, 여러 PCIe 레인을 지원해야 하므로 AMD EPYC 같은 저사양 서버용 CPU가 적합함
- M4 Max나 M3 Ultra 같은 Apple 실리콘을 쓰는 건 생각 안 해봤는지?
  중간 규모 LLM에는 꽤 잘 맞음
- 네가 말한 시스템은 사실상 DGX Spark가 그 역할을 함
멀티 GPU 부분이 의외라고 한 게 이해가 안 됨
대부분의 LLM 프레임워크(예: llama.cpp)는 레이어 단위로 모델을 분할하기 때문에, 순차 의존성이 생겨 GPU 여러 개를 써도 병렬 작업이 안 됨
일부 GPU는 프롬프트 처리에, 다른 GPU는 토큰 생성에 더 빠르기도 해서, Radeon과 NVIDIA를 섞으면 가끔 효과가 있음
진짜 성능 향상은 tensor parallel 모드 같은 백엔드에서 가능함
이건 데이터 흐름 방향으로 신경망을 나누는 방식이라, GPU 간 연결(PCIe x16, NVlink, Infinity Fabric 등)이 좋아야 함
이런 게 없으면 GPU 사용률이 들쭉날쭉하게 보이기도 함
여러 작업을 병렬로 돌릴 수 있게 LLM을 쪼개는 방법, 예를 들어 “매니저”와 “엔지니어” 역할을 나누는 식의 에이전트 구조가 흥미로움
- 맞음, 그게 바로 에이전트 시스템의 개념임
  매니저 모델이 프롬프트를 만들고, 하위 모델들이 병렬로 작업한 뒤 결과를 반환함
- 인터레이어 전송 크기가 킬로바이트 단위라는 말은 과장임
  실제로는 시퀀스 길이에 따라 메가바이트 단위로 커짐
  예를 들어 Qwen3 30B의 hidden state가 5120이라면, 8비트 양자화 시 토큰당 5120바이트임
  200개 토큰만 넘어도 MB 단위가 됨
  PCIe x1 대역폭(약 2GB/s)으로도 충분하지만, 지연 시간(latency) 이 더 큰 문제일 수 있음
누군가 이런 실험을 해줘서 정말 반가움
나도 여분의 노트북에 eGPU를 연결해 쓰면서, “이걸 Raspberry Pi로도 할 수 있지 않을까?” 생각했었음
게임 성능도 봤으면 좋았을 것 같음
다만 ARM을 지원하는 AAA 게임을 찾기 어렵고, FEX로 x86 에뮬레이션을 강제하는 건 공정하지 않음
- CPU 병목이 없는 게임을 찾는 게 관건일 듯함
constrained decoding(JSON schema 기반) 을 쓸 때 CPU 사용률이 100%까지 올라감
내 vLLM 인스턴스에서도 같은 현상을 봄
PCIe 3.0은 1레인당 약 1GB/s로, 10Gb 이더넷급 속도를 냄
앞으로 GPU가 호스트 시스템 없이 독립적으로 동작할 날이 올지도 모름
이미 Radeon Pro SSG처럼 GPU에 SSD를 붙인 사례가 있었고,
작은 RISC-V 칩이나 라즈베리파이급 컨트롤러만으로도 충분할 수 있음
관련 기사: TechPowerUp
GPU가 네트워크 스위치에 직접 연결되어 400Gbe나 CXL 기반 통신을 하는 구조가 현실적임
또, High Bandwidth Flash 같은 차세대 플래시 기술이 DRAM을 대체할 가능성도 있음
관련 기사: ServeTheHome, Tom’s Hardware
이런 데이터 포인트를 보니 내 메인 PC 구성을 다시 생각하게 됨
20W 이하로 동작하는 300달러짜리 미니 PC면 충분할 듯함
웹 브라우징, 영상 시청, 가벼운 게임 정도는 거뜬하고,
무거운 작업은 원격으로 워크스테이션에 접속하면 됨
- 나는 Proxmox VM + eGPU 조합으로 실험 중임
  1 vCPU, 4GB RAM만으로도 웹서핑과 취미 프로젝트엔 충분함
  하드웨어 제조사들이 “전문가는 고성능 노트북이 필요하다”고 과장 광고한 것 같음
- 8코어 Ryzen 미니PC에서 8코어 데스크탑으로 바꾸니 유닛 테스트 속도가 훨씬 빨라짐
  TDP 차이가 성능 차이를 크게 만듦
- 나도 Beelink 미니PC를 쓰는데, 책상이 깔끔해지고
  고성능 장비는 방음된 공간에 넣어두니 쾌적함
PCI/CPU 구조 자체가 왜 필요한지 의문임
Apple과 NVIDIA처럼 CPU와 MPP를 같은 패키지에 넣는 게 맞는 방향 같음
- 그 방식은 지연 시간에 민감한 작업에는 유리하지만,
  AI나 HPC 같은 대규모 연산에는 큰 차이가 없을 수도 있음