# 대형 GPU는 대형 PC가 필요하지 않다

> Clean Markdown view of GeekNews topic #25213. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25213](https://news.hada.io/topic?id=25213)
- GeekNews Markdown: [https://news.hada.io/topic/25213.md](https://news.hada.io/topic/25213.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-12-21T07:56:42+09:00
- Updated: 2025-12-21T07:56:42+09:00
- Original source: [jeffgeerling.com](https://www.jeffgeerling.com/blog/2025/big-gpus-dont-need-big-pcs)
- Points: 9
- Comments: 1

## Summary

"사실 AI에는 대형 GPU가 필요하지 대형 PC는 필요없는거 아냐?"를 확인하기 위한 실험을 진행해 Raspberry Pi 5에서 입증되었습니다. PCIe Gen 3 x1의 제한된 대역폭에도 불구하고, **4개의 RTX A5000을 연결한 Pi 시스템이 Intel 서버 대비 2% 이내 성능 차이**를 보이며 GPU 간 메모리 공유로 병목을 최소화했습니다. 총비용이 4분의 1 수준(약 $400)이고 유휴 전력도 5W 내외에 불과해, **저전력·저비용 GPU 컴퓨팅 플랫폼**으로서의 가능성을 구체적으로 보여줍니다.

## Topic Body

- **Raspberry Pi 5**에서 **AMD, Intel, Nvidia GPU**를 구동해 데스크톱 PC와 비교한 실험에서, 성능 손실이 2~5% 수준에 불과한 경우가 다수 확인됨  
- **Jellyfin 트랜스코딩**, **GravityMark 렌더링**, **LLM/AI 추론**, **멀티 GPU 구성** 등 네 가지 항목을 테스트해 효율성과 비용 대비 성능을 측정  
- **4개의 Nvidia RTX A5000**을 연결한 사례에서는 **Intel 서버 대비 2% 이내 성능 차이**를 보이며, PCIe 스위치를 통한 GPU 간 메모리 공유가 핵심 역할  
- **Raspberry Pi eGPU 시스템**의 총비용은 약 **$350~400**, **PC는 $1500~2000**으로, 전력 소모 또한 Pi가 훨씬 낮음(유휴 시 4~5W vs 30W)  
- 대형 GPU를 효율적으로 활용할 수 있는 **저전력·저비용 대안 플랫폼**으로서 Raspberry Pi의 가능성을 입증한 사례  

---

### 실험 개요
- Raspberry Pi 5의 **PCIe Gen 3 x1 대역폭(8 GT/s)** 한계를 감안하고도 GPU 활용 가능성을 검증  
  - 비교 대상은 **최신 데스크톱 PC(PCIe Gen 5 x16, 512 GT/s)**  
- 테스트 항목은 **미디어 트랜스코딩(Jellyfin)** , **GPU 렌더링(GravityMark)** , **LLM/AI 성능**, **멀티 GPU 구성**  
- **Dolphin ICS**의 **PCIe Gen 4 외부 스위치 및 3슬롯 백플레인**을 사용해 **2개 GPU 동시 구동** 실험 수행  

### 4개의 GPU를 연결한 Raspberry Pi 사례
- GitHub 사용자 **mpsparrow**가 **4개의 Nvidia RTX A5000 GPU**를 단일 Pi에 연결  
  - **Llama 3 70B 모델** 실행 시 **Intel 서버 대비 2% 이내 성능 차이**(11.83 vs 12 tokens/sec)  
- **PCIe 스위치**를 통해 GPU 간 메모리 공유가 가능해, Pi의 대역폭 제약을 우회  
- 단일 GPU 구성에서도 일부 작업에서 **데스크톱과 동등하거나 우세한 성능** 확인  

### 비용 및 효율성 비교
- **Raspberry Pi eGPU 구성**: 약 **$350~400**, **Intel PC 구성**: 약 **$1500~2000**  
- **유휴 전력 소모**: Pi 4~5W, PC 30W  
- GPU 제외 시 동일 조건에서 **비용·전력 효율성** 모두 Pi가 우위  

### Jellyfin 트랜스코딩 벤치마크
- **Nvidia 4070 Ti** 사용 시, **PC가 원시 처리량(2GB/s)** 면에서 우세  
  - Pi는 **PCIe 850MB/s**, **USB SSD 300MB/s** 수준  
- 그러나 **H.264/H.265 미디어 스트리밍**에서는 Pi도 **1080p·4K 트랜스코딩**을 원활히 처리  
  - **NVENC 하드웨어 인코딩** 지원, **2개 동시 트랜스코딩**도 안정적  
- **AMD GPU**는 트랜스코딩 안정성에 일부 문제 발생  

### GravityMark 렌더링 테스트
- **AMD GPU** 중심으로 테스트, **PC가 약간 빠르지만 차이는 미미**  
- **RX 460** 사용 시 Pi가 **PC보다 높은 효율(성능/W)** 기록  
- **PCIe Gen 3** 대역폭이 동일한 구형 GPU에서는 Pi가 **상대적 이점** 확보  

### AI 및 LLM 성능 비교
- **AMD Radeon AI Pro R9700(32GB VRAM)** 테스트에서 **예상보다 낮은 성능**, 드라이버나 BAR 설정 문제 가능성  
- **Nvidia RTX 3060(12GB)** 사용 시, **Llama 2 13B 모델**에서 Pi가 **PC보다 빠름**  
- **효율성 측정** 결과, Pi가 **전력 대비 처리량**에서 PC보다 우수  
- **RTX 4090** 테스트에서도 **대형 모델(Qwen3 30B)** 기준 **5% 이내 성능 차이**, 효율성은 Pi가 우세한 경우 다수  
- **CUDA 백엔드**와 **Vulkan 백엔드** 모두 Pi에서 정상 작동  

### 듀얼 GPU 구성 실험
- **Dolphin PCIe 인터커넥트 보드**와 **MXH932 HBA** 사용  
- **ACS 비활성화**로 GPU 간 직접 메모리 접근 가능  
- **서로 다른 GPU 모델**(4070, A4000) 조합에서는 **VRAM 풀링 미지원**, 성능 향상 제한  
- **동일 GPU 구성 시** 더 큰 모델(Qwen3 30B 등) 실행 가능  
- **AMD RX 7900 XT + R9700** 조합은 드라이버 문제로 일부 모델 실행 실패  
- **Intel PC**는 전반적으로 빠르지만, **Pi도 대형 모델에서 근접 성능** 유지  

### 결론
- **절대 성능과 편의성**은 PC가 우세  
- 그러나 **GPU 중심 워크로드**, **저전력·저비용 환경**에서는 **Raspberry Pi가 실용적 대안**  
- **유휴 전력 20~30W 절감**, **Rockchip·Qualcomm 기반 SBC**는 더 높은 효율과 I/O 대역폭 제공  
- 실험 목적은 **Pi의 한계와 GPU 컴퓨팅 구조 학습**, 그 과정에서 **소형 시스템의 잠재력** 확인

## Comments


### Comment 48061

- Author: neo
- Created: 2025-12-21T07:56:42+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46338016) 
- 로컬에서 LLM을 돌리려면 결국 **GPU**가 핵심임  
  그래서 GPU 옆에 붙일 수 있는 가장 **저렴한 컴퓨터**가 뭘까 고민 중임  
  나는 BAR 같은 문제를 이해하거나 고칠 능력은 없어서, 그냥 적당한 GPU를 꽂은 값싼 x86 박스를 만들어서 쓰고 있음  
  하지만 여전히 더 효율적인 방법이 있을 것 같다는 생각이 머릿속을 떠나지 않음  
  - 나는 로컬 LLM용 **최적 하드웨어 조합**을 모으는 크라우드소싱 사이트를 운영 중임  
    사이트는 [inferbench.com](https://inferbench.com/), 소스코드는 [GitHub 저장소](https://github.com/BinSquare/inferbench)에 있음  
  - 아직은 단일 PCIe 장치로 의미 있는 성능을 내기 어려움  
    GPU에 최소 **128GB RAM**이 필요하다고 봄  
    CPU 성능은 낮아도 되지만, 여러 PCIe 레인을 지원해야 하므로 AMD EPYC 같은 저사양 서버용 CPU가 적합함  
  - M4 Max나 M3 Ultra 같은 **Apple 실리콘**을 쓰는 건 생각 안 해봤는지?  
    중간 규모 LLM에는 꽤 잘 맞음  
  - 네가 말한 시스템은 사실상 **DGX Spark**가 그 역할을 함  

- 멀티 GPU 부분이 의외라고 한 게 이해가 안 됨  
  대부분의 LLM 프레임워크(예: llama.cpp)는 **레이어 단위로 모델을 분할**하기 때문에, 순차 의존성이 생겨 GPU 여러 개를 써도 병렬 작업이 안 됨  
  일부 GPU는 프롬프트 처리에, 다른 GPU는 토큰 생성에 더 빠르기도 해서, Radeon과 NVIDIA를 섞으면 가끔 효과가 있음  
  진짜 성능 향상은 **tensor parallel** 모드 같은 백엔드에서 가능함  
  이건 데이터 흐름 방향으로 신경망을 나누는 방식이라, GPU 간 연결(PCIe x16, NVlink, Infinity Fabric 등)이 좋아야 함  
  이런 게 없으면 GPU 사용률이 들쭉날쭉하게 보이기도 함  
  여러 작업을 병렬로 돌릴 수 있게 LLM을 쪼개는 방법, 예를 들어 “매니저”와 “엔지니어” 역할을 나누는 식의 **에이전트 구조**가 흥미로움  
  - 맞음, 그게 바로 **에이전트 시스템**의 개념임  
    매니저 모델이 프롬프트를 만들고, 하위 모델들이 병렬로 작업한 뒤 결과를 반환함  
  - 인터레이어 전송 크기가 **킬로바이트 단위**라는 말은 과장임  
    실제로는 시퀀스 길이에 따라 **메가바이트 단위**로 커짐  
    예를 들어 Qwen3 30B의 hidden state가 5120이라면, 8비트 양자화 시 토큰당 5120바이트임  
    200개 토큰만 넘어도 MB 단위가 됨  
    PCIe x1 대역폭(약 2GB/s)으로도 충분하지만, **지연 시간(latency)** 이 더 큰 문제일 수 있음  

- 누군가 이런 실험을 해줘서 정말 반가움  
  나도 여분의 노트북에 eGPU를 연결해 쓰면서, “이걸 **Raspberry Pi**로도 할 수 있지 않을까?” 생각했었음  

- **게임 성능**도 봤으면 좋았을 것 같음  
  다만 ARM을 지원하는 AAA 게임을 찾기 어렵고, FEX로 x86 에뮬레이션을 강제하는 건 공정하지 않음  
  - CPU 병목이 없는 게임을 찾는 게 관건일 듯함  

- **constrained decoding(JSON schema 기반)** 을 쓸 때 CPU 사용률이 100%까지 올라감  
  내 vLLM 인스턴스에서도 같은 현상을 봄  

- PCIe 3.0은 1레인당 약 1GB/s로, **10Gb 이더넷급 속도**를 냄  
  앞으로 GPU가 호스트 시스템 없이 독립적으로 동작할 날이 올지도 모름  
  이미 **Radeon Pro SSG**처럼 GPU에 SSD를 붙인 사례가 있었고,  
  작은 RISC-V 칩이나 라즈베리파이급 컨트롤러만으로도 충분할 수 있음  
  관련 기사: [TechPowerUp](https://www.techpowerup.com/224434/amd-announces-the-radeon-...)  
  GPU가 네트워크 스위치에 직접 연결되어 400Gbe나 **CXL 기반 통신**을 하는 구조가 현실적임  
  또, **High Bandwidth Flash** 같은 차세대 플래시 기술이 DRAM을 대체할 가능성도 있음  
  관련 기사: [ServeTheHome](https://www.servethehome.com/next-generation-interconnect-intel-omni-path-released/), [Tom’s Hardware](https://www.tomshardware.com/tech-industry/sandisk-and-sk-hynix-join-forces-to-standardize-high-bandwidth-flash-memory-a-nand-based-alternative-to-hbm-for-ai-gpus-move-could-enable-8-16x-higher-capacity-compared-to-dram)  

- 이런 데이터 포인트를 보니 내 **메인 PC 구성**을 다시 생각하게 됨  
  20W 이하로 동작하는 300달러짜리 미니 PC면 충분할 듯함  
  웹 브라우징, 영상 시청, 가벼운 게임 정도는 거뜬하고,  
  무거운 작업은 원격으로 워크스테이션에 접속하면 됨  
  - 나는 **Proxmox VM + eGPU** 조합으로 실험 중임  
    1 vCPU, 4GB RAM만으로도 웹서핑과 취미 프로젝트엔 충분함  
    하드웨어 제조사들이 “전문가는 고성능 노트북이 필요하다”고 **과장 광고**한 것 같음  
  - 8코어 Ryzen 미니PC에서 8코어 데스크탑으로 바꾸니 **유닛 테스트 속도**가 훨씬 빨라짐  
    TDP 차이가 성능 차이를 크게 만듦  
  - 나도 **Beelink 미니PC**를 쓰는데, 책상이 깔끔해지고  
    고성능 장비는 방음된 공간에 넣어두니 쾌적함  

- PCI/CPU 구조 자체가 왜 필요한지 의문임  
  **Apple과 NVIDIA**처럼 CPU와 MPP를 같은 패키지에 넣는 게 맞는 방향 같음  
  - 그 방식은 **지연 시간에 민감한 작업**에는 유리하지만,  
    AI나 HPC 같은 대규모 연산에는 큰 차이가 없을 수도 있음