대형 GPU는 대형 PC가 필요하지 않다

(jeffgeerling.com)

9P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Raspberry Pi 5에서 AMD, Intel, Nvidia GPU를 구동해 데스크톱 PC와 비교한 실험에서, 성능 손실이 2~5% 수준에 불과한 경우가 다수 확인됨
Jellyfin 트랜스코딩, GravityMark 렌더링, LLM/AI 추론, 멀티 GPU 구성 등 네 가지 항목을 테스트해 효율성과 비용 대비 성능을 측정
4개의 Nvidia RTX A5000을 연결한 사례에서는 Intel 서버 대비 2% 이내 성능 차이를 보이며, PCIe 스위치를 통한 GPU 간 메모리 공유가 핵심 역할
Raspberry Pi eGPU 시스템의 총비용은 약 $350~400, PC는 $1500~2000으로, 전력 소모 또한 Pi가 훨씬 낮음(유휴 시 4~5W vs 30W)
대형 GPU를 효율적으로 활용할 수 있는 저전력·저비용 대안 플랫폼으로서 Raspberry Pi의 가능성을 입증한 사례

실험 개요

Raspberry Pi 5의 PCIe Gen 3 x1 대역폭(8 GT/s) 한계를 감안하고도 GPU 활용 가능성을 검증
- 비교 대상은 최신 데스크톱 PC(PCIe Gen 5 x16, 512 GT/s)
테스트 항목은 미디어 트랜스코딩(Jellyfin) , GPU 렌더링(GravityMark) , LLM/AI 성능, 멀티 GPU 구성
Dolphin ICS의 PCIe Gen 4 외부 스위치 및 3슬롯 백플레인을 사용해 2개 GPU 동시 구동 실험 수행

4개의 GPU를 연결한 Raspberry Pi 사례

GitHub 사용자 mpsparrow가 4개의 Nvidia RTX A5000 GPU를 단일 Pi에 연결
- Llama 3 70B 모델 실행 시 Intel 서버 대비 2% 이내 성능 차이(11.83 vs 12 tokens/sec)
PCIe 스위치를 통해 GPU 간 메모리 공유가 가능해, Pi의 대역폭 제약을 우회
단일 GPU 구성에서도 일부 작업에서 데스크톱과 동등하거나 우세한 성능 확인

비용 및 효율성 비교

Raspberry Pi eGPU 구성: 약 $350~400, Intel PC 구성: 약 $1500~2000
유휴 전력 소모: Pi 4~5W, PC 30W
GPU 제외 시 동일 조건에서 비용·전력 효율성 모두 Pi가 우위

Jellyfin 트랜스코딩 벤치마크

Nvidia 4070 Ti 사용 시, PC가 원시 처리량(2GB/s) 면에서 우세
- Pi는 PCIe 850MB/s, USB SSD 300MB/s 수준
그러나 H.264/H.265 미디어 스트리밍에서는 Pi도 1080p·4K 트랜스코딩을 원활히 처리
- NVENC 하드웨어 인코딩 지원, 2개 동시 트랜스코딩도 안정적
AMD GPU는 트랜스코딩 안정성에 일부 문제 발생

GravityMark 렌더링 테스트

AMD GPU 중심으로 테스트, PC가 약간 빠르지만 차이는 미미
RX 460 사용 시 Pi가 PC보다 높은 효율(성능/W) 기록
PCIe Gen 3 대역폭이 동일한 구형 GPU에서는 Pi가 상대적 이점 확보

AI 및 LLM 성능 비교

AMD Radeon AI Pro R9700(32GB VRAM) 테스트에서 예상보다 낮은 성능, 드라이버나 BAR 설정 문제 가능성
Nvidia RTX 3060(12GB) 사용 시, Llama 2 13B 모델에서 Pi가 PC보다 빠름
효율성 측정 결과, Pi가 전력 대비 처리량에서 PC보다 우수
RTX 4090 테스트에서도 대형 모델(Qwen3 30B) 기준 5% 이내 성능 차이, 효율성은 Pi가 우세한 경우 다수
CUDA 백엔드와 Vulkan 백엔드 모두 Pi에서 정상 작동

듀얼 GPU 구성 실험

Dolphin PCIe 인터커넥트 보드와 MXH932 HBA 사용
ACS 비활성화로 GPU 간 직접 메모리 접근 가능
서로 다른 GPU 모델(4070, A4000) 조합에서는 VRAM 풀링 미지원, 성능 향상 제한
동일 GPU 구성 시 더 큰 모델(Qwen3 30B 등) 실행 가능
AMD RX 7900 XT + R9700 조합은 드라이버 문제로 일부 모델 실행 실패
Intel PC는 전반적으로 빠르지만, Pi도 대형 모델에서 근접 성능 유지

결론

절대 성능과 편의성은 PC가 우세
그러나 GPU 중심 워크로드, 저전력·저비용 환경에서는 Raspberry Pi가 실용적 대안
유휴 전력 20~30W 절감, Rockchip·Qualcomm 기반 SBC는 더 높은 효율과 I/O 대역폭 제공
실험 목적은 Pi의 한계와 GPU 컴퓨팅 구조 학습, 그 과정에서 소형 시스템의 잠재력 확인

▲

GN⁺ 2달전 [-]

Hacker News 의견들

로컬에서 LLM을 돌리려면 결국 GPU가 핵심임
그래서 GPU 옆에 붙일 수 있는 가장 저렴한 컴퓨터가 뭘까 고민 중임
나는 BAR 같은 문제를 이해하거나 고칠 능력은 없어서, 그냥 적당한 GPU를 꽂은 값싼 x86 박스를 만들어서 쓰고 있음
하지만 여전히 더 효율적인 방법이 있을 것 같다는 생각이 머릿속을 떠나지 않음
- 나는 로컬 LLM용 최적 하드웨어 조합을 모으는 크라우드소싱 사이트를 운영 중임
  사이트는 inferbench.com, 소스코드는 GitHub 저장소에 있음
- 아직은 단일 PCIe 장치로 의미 있는 성능을 내기 어려움
  GPU에 최소 128GB RAM이 필요하다고 봄
  CPU 성능은 낮아도 되지만, 여러 PCIe 레인을 지원해야 하므로 AMD EPYC 같은 저사양 서버용 CPU가 적합함
- M4 Max나 M3 Ultra 같은 Apple 실리콘을 쓰는 건 생각 안 해봤는지?
  중간 규모 LLM에는 꽤 잘 맞음
- 네가 말한 시스템은 사실상 DGX Spark가 그 역할을 함
멀티 GPU 부분이 의외라고 한 게 이해가 안 됨
대부분의 LLM 프레임워크(예: llama.cpp)는 레이어 단위로 모델을 분할하기 때문에, 순차 의존성이 생겨 GPU 여러 개를 써도 병렬 작업이 안 됨
일부 GPU는 프롬프트 처리에, 다른 GPU는 토큰 생성에 더 빠르기도 해서, Radeon과 NVIDIA를 섞으면 가끔 효과가 있음
진짜 성능 향상은 tensor parallel 모드 같은 백엔드에서 가능함
이건 데이터 흐름 방향으로 신경망을 나누는 방식이라, GPU 간 연결(PCIe x16, NVlink, Infinity Fabric 등)이 좋아야 함
이런 게 없으면 GPU 사용률이 들쭉날쭉하게 보이기도 함
여러 작업을 병렬로 돌릴 수 있게 LLM을 쪼개는 방법, 예를 들어 “매니저”와 “엔지니어” 역할을 나누는 식의 에이전트 구조가 흥미로움
- 맞음, 그게 바로 에이전트 시스템의 개념임
  매니저 모델이 프롬프트를 만들고, 하위 모델들이 병렬로 작업한 뒤 결과를 반환함
- 인터레이어 전송 크기가 킬로바이트 단위라는 말은 과장임
  실제로는 시퀀스 길이에 따라 메가바이트 단위로 커짐
  예를 들어 Qwen3 30B의 hidden state가 5120이라면, 8비트 양자화 시 토큰당 5120바이트임
  200개 토큰만 넘어도 MB 단위가 됨
  PCIe x1 대역폭(약 2GB/s)으로도 충분하지만, 지연 시간(latency) 이 더 큰 문제일 수 있음
누군가 이런 실험을 해줘서 정말 반가움
나도 여분의 노트북에 eGPU를 연결해 쓰면서, “이걸 Raspberry Pi로도 할 수 있지 않을까?” 생각했었음
게임 성능도 봤으면 좋았을 것 같음
다만 ARM을 지원하는 AAA 게임을 찾기 어렵고, FEX로 x86 에뮬레이션을 강제하는 건 공정하지 않음
- CPU 병목이 없는 게임을 찾는 게 관건일 듯함
constrained decoding(JSON schema 기반) 을 쓸 때 CPU 사용률이 100%까지 올라감
내 vLLM 인스턴스에서도 같은 현상을 봄
PCIe 3.0은 1레인당 약 1GB/s로, 10Gb 이더넷급 속도를 냄
앞으로 GPU가 호스트 시스템 없이 독립적으로 동작할 날이 올지도 모름
이미 Radeon Pro SSG처럼 GPU에 SSD를 붙인 사례가 있었고,
작은 RISC-V 칩이나 라즈베리파이급 컨트롤러만으로도 충분할 수 있음
관련 기사: TechPowerUp
GPU가 네트워크 스위치에 직접 연결되어 400Gbe나 CXL 기반 통신을 하는 구조가 현실적임
또, High Bandwidth Flash 같은 차세대 플래시 기술이 DRAM을 대체할 가능성도 있음
관련 기사: ServeTheHome, Tom’s Hardware
이런 데이터 포인트를 보니 내 메인 PC 구성을 다시 생각하게 됨
20W 이하로 동작하는 300달러짜리 미니 PC면 충분할 듯함
웹 브라우징, 영상 시청, 가벼운 게임 정도는 거뜬하고,
무거운 작업은 원격으로 워크스테이션에 접속하면 됨
- 나는 Proxmox VM + eGPU 조합으로 실험 중임
  1 vCPU, 4GB RAM만으로도 웹서핑과 취미 프로젝트엔 충분함
  하드웨어 제조사들이 “전문가는 고성능 노트북이 필요하다”고 과장 광고한 것 같음
- 8코어 Ryzen 미니PC에서 8코어 데스크탑으로 바꾸니 유닛 테스트 속도가 훨씬 빨라짐
  TDP 차이가 성능 차이를 크게 만듦
- 나도 Beelink 미니PC를 쓰는데, 책상이 깔끔해지고
  고성능 장비는 방음된 공간에 넣어두니 쾌적함
PCI/CPU 구조 자체가 왜 필요한지 의문임
Apple과 NVIDIA처럼 CPU와 MPP를 같은 패키지에 넣는 게 맞는 방향 같음
- 그 방식은 지연 시간에 민감한 작업에는 유리하지만,
  AI나 HPC 같은 대규모 연산에는 큰 차이가 없을 수도 있음

답변달기