7P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Raspberry Pi 5에서 AMD, Intel, Nvidia GPU를 구동해 데스크톱 PC와 비교한 실험에서, 성능 손실이 2~5% 수준에 불과한 경우가 다수 확인됨
  • Jellyfin 트랜스코딩, GravityMark 렌더링, LLM/AI 추론, 멀티 GPU 구성 등 네 가지 항목을 테스트해 효율성과 비용 대비 성능을 측정
  • 4개의 Nvidia RTX A5000을 연결한 사례에서는 Intel 서버 대비 2% 이내 성능 차이를 보이며, PCIe 스위치를 통한 GPU 간 메모리 공유가 핵심 역할
  • Raspberry Pi eGPU 시스템의 총비용은 약 $350~400, PC는 $1500~2000으로, 전력 소모 또한 Pi가 훨씬 낮음(유휴 시 4~5W vs 30W)
  • 대형 GPU를 효율적으로 활용할 수 있는 저전력·저비용 대안 플랫폼으로서 Raspberry Pi의 가능성을 입증한 사례

실험 개요

  • Raspberry Pi 5의 PCIe Gen 3 x1 대역폭(8 GT/s) 한계를 감안하고도 GPU 활용 가능성을 검증
    • 비교 대상은 최신 데스크톱 PC(PCIe Gen 5 x16, 512 GT/s)
  • 테스트 항목은 미디어 트랜스코딩(Jellyfin) , GPU 렌더링(GravityMark) , LLM/AI 성능, 멀티 GPU 구성
  • Dolphin ICSPCIe Gen 4 외부 스위치 및 3슬롯 백플레인을 사용해 2개 GPU 동시 구동 실험 수행

4개의 GPU를 연결한 Raspberry Pi 사례

  • GitHub 사용자 mpsparrow4개의 Nvidia RTX A5000 GPU를 단일 Pi에 연결
    • Llama 3 70B 모델 실행 시 Intel 서버 대비 2% 이내 성능 차이(11.83 vs 12 tokens/sec)
  • PCIe 스위치를 통해 GPU 간 메모리 공유가 가능해, Pi의 대역폭 제약을 우회
  • 단일 GPU 구성에서도 일부 작업에서 데스크톱과 동등하거나 우세한 성능 확인

비용 및 효율성 비교

  • Raspberry Pi eGPU 구성: 약 $350~400, Intel PC 구성: 약 $1500~2000
  • 유휴 전력 소모: Pi 4~5W, PC 30W
  • GPU 제외 시 동일 조건에서 비용·전력 효율성 모두 Pi가 우위

Jellyfin 트랜스코딩 벤치마크

  • Nvidia 4070 Ti 사용 시, PC가 원시 처리량(2GB/s) 면에서 우세
    • Pi는 PCIe 850MB/s, USB SSD 300MB/s 수준
  • 그러나 H.264/H.265 미디어 스트리밍에서는 Pi도 1080p·4K 트랜스코딩을 원활히 처리
    • NVENC 하드웨어 인코딩 지원, 2개 동시 트랜스코딩도 안정적
  • AMD GPU는 트랜스코딩 안정성에 일부 문제 발생

GravityMark 렌더링 테스트

  • AMD GPU 중심으로 테스트, PC가 약간 빠르지만 차이는 미미
  • RX 460 사용 시 Pi가 PC보다 높은 효율(성능/W) 기록
  • PCIe Gen 3 대역폭이 동일한 구형 GPU에서는 Pi가 상대적 이점 확보

AI 및 LLM 성능 비교

  • AMD Radeon AI Pro R9700(32GB VRAM) 테스트에서 예상보다 낮은 성능, 드라이버나 BAR 설정 문제 가능성
  • Nvidia RTX 3060(12GB) 사용 시, Llama 2 13B 모델에서 Pi가 PC보다 빠름
  • 효율성 측정 결과, Pi가 전력 대비 처리량에서 PC보다 우수
  • RTX 4090 테스트에서도 대형 모델(Qwen3 30B) 기준 5% 이내 성능 차이, 효율성은 Pi가 우세한 경우 다수
  • CUDA 백엔드Vulkan 백엔드 모두 Pi에서 정상 작동

듀얼 GPU 구성 실험

  • Dolphin PCIe 인터커넥트 보드MXH932 HBA 사용
  • ACS 비활성화로 GPU 간 직접 메모리 접근 가능
  • 서로 다른 GPU 모델(4070, A4000) 조합에서는 VRAM 풀링 미지원, 성능 향상 제한
  • 동일 GPU 구성 시 더 큰 모델(Qwen3 30B 등) 실행 가능
  • AMD RX 7900 XT + R9700 조합은 드라이버 문제로 일부 모델 실행 실패
  • Intel PC는 전반적으로 빠르지만, Pi도 대형 모델에서 근접 성능 유지

결론

  • 절대 성능과 편의성은 PC가 우세
  • 그러나 GPU 중심 워크로드, 저전력·저비용 환경에서는 Raspberry Pi가 실용적 대안
  • 유휴 전력 20~30W 절감, Rockchip·Qualcomm 기반 SBC는 더 높은 효율과 I/O 대역폭 제공
  • 실험 목적은 Pi의 한계와 GPU 컴퓨팅 구조 학습, 그 과정에서 소형 시스템의 잠재력 확인
Hacker News 의견들
  • 로컬에서 LLM을 돌리려면 결국 GPU가 핵심임
    그래서 GPU 옆에 붙일 수 있는 가장 저렴한 컴퓨터가 뭘까 고민 중임
    나는 BAR 같은 문제를 이해하거나 고칠 능력은 없어서, 그냥 적당한 GPU를 꽂은 값싼 x86 박스를 만들어서 쓰고 있음
    하지만 여전히 더 효율적인 방법이 있을 것 같다는 생각이 머릿속을 떠나지 않음

    • 나는 로컬 LLM용 최적 하드웨어 조합을 모으는 크라우드소싱 사이트를 운영 중임
      사이트는 inferbench.com, 소스코드는 GitHub 저장소에 있음
    • 아직은 단일 PCIe 장치로 의미 있는 성능을 내기 어려움
      GPU에 최소 128GB RAM이 필요하다고 봄
      CPU 성능은 낮아도 되지만, 여러 PCIe 레인을 지원해야 하므로 AMD EPYC 같은 저사양 서버용 CPU가 적합함
    • M4 Max나 M3 Ultra 같은 Apple 실리콘을 쓰는 건 생각 안 해봤는지?
      중간 규모 LLM에는 꽤 잘 맞음
    • 네가 말한 시스템은 사실상 DGX Spark가 그 역할을 함
  • 멀티 GPU 부분이 의외라고 한 게 이해가 안 됨
    대부분의 LLM 프레임워크(예: llama.cpp)는 레이어 단위로 모델을 분할하기 때문에, 순차 의존성이 생겨 GPU 여러 개를 써도 병렬 작업이 안 됨
    일부 GPU는 프롬프트 처리에, 다른 GPU는 토큰 생성에 더 빠르기도 해서, Radeon과 NVIDIA를 섞으면 가끔 효과가 있음
    진짜 성능 향상은 tensor parallel 모드 같은 백엔드에서 가능함
    이건 데이터 흐름 방향으로 신경망을 나누는 방식이라, GPU 간 연결(PCIe x16, NVlink, Infinity Fabric 등)이 좋아야 함
    이런 게 없으면 GPU 사용률이 들쭉날쭉하게 보이기도 함
    여러 작업을 병렬로 돌릴 수 있게 LLM을 쪼개는 방법, 예를 들어 “매니저”와 “엔지니어” 역할을 나누는 식의 에이전트 구조가 흥미로움

    • 맞음, 그게 바로 에이전트 시스템의 개념임
      매니저 모델이 프롬프트를 만들고, 하위 모델들이 병렬로 작업한 뒤 결과를 반환함
    • 인터레이어 전송 크기가 킬로바이트 단위라는 말은 과장임
      실제로는 시퀀스 길이에 따라 메가바이트 단위로 커짐
      예를 들어 Qwen3 30B의 hidden state가 5120이라면, 8비트 양자화 시 토큰당 5120바이트임
      200개 토큰만 넘어도 MB 단위가 됨
      PCIe x1 대역폭(약 2GB/s)으로도 충분하지만, 지연 시간(latency) 이 더 큰 문제일 수 있음
  • 누군가 이런 실험을 해줘서 정말 반가움
    나도 여분의 노트북에 eGPU를 연결해 쓰면서, “이걸 Raspberry Pi로도 할 수 있지 않을까?” 생각했었음

  • 게임 성능도 봤으면 좋았을 것 같음
    다만 ARM을 지원하는 AAA 게임을 찾기 어렵고, FEX로 x86 에뮬레이션을 강제하는 건 공정하지 않음

    • CPU 병목이 없는 게임을 찾는 게 관건일 듯함
  • constrained decoding(JSON schema 기반) 을 쓸 때 CPU 사용률이 100%까지 올라감
    내 vLLM 인스턴스에서도 같은 현상을 봄

  • PCIe 3.0은 1레인당 약 1GB/s로, 10Gb 이더넷급 속도를 냄
    앞으로 GPU가 호스트 시스템 없이 독립적으로 동작할 날이 올지도 모름
    이미 Radeon Pro SSG처럼 GPU에 SSD를 붙인 사례가 있었고,
    작은 RISC-V 칩이나 라즈베리파이급 컨트롤러만으로도 충분할 수 있음
    관련 기사: TechPowerUp
    GPU가 네트워크 스위치에 직접 연결되어 400Gbe나 CXL 기반 통신을 하는 구조가 현실적임
    또, High Bandwidth Flash 같은 차세대 플래시 기술이 DRAM을 대체할 가능성도 있음
    관련 기사: ServeTheHome, Tom’s Hardware

  • 이런 데이터 포인트를 보니 내 메인 PC 구성을 다시 생각하게 됨
    20W 이하로 동작하는 300달러짜리 미니 PC면 충분할 듯함
    웹 브라우징, 영상 시청, 가벼운 게임 정도는 거뜬하고,
    무거운 작업은 원격으로 워크스테이션에 접속하면 됨

    • 나는 Proxmox VM + eGPU 조합으로 실험 중임
      1 vCPU, 4GB RAM만으로도 웹서핑과 취미 프로젝트엔 충분함
      하드웨어 제조사들이 “전문가는 고성능 노트북이 필요하다”고 과장 광고한 것 같음
    • 8코어 Ryzen 미니PC에서 8코어 데스크탑으로 바꾸니 유닛 테스트 속도가 훨씬 빨라짐
      TDP 차이가 성능 차이를 크게 만듦
    • 나도 Beelink 미니PC를 쓰는데, 책상이 깔끔해지고
      고성능 장비는 방음된 공간에 넣어두니 쾌적함
  • PCI/CPU 구조 자체가 왜 필요한지 의문임
    Apple과 NVIDIA처럼 CPU와 MPP를 같은 패키지에 넣는 게 맞는 방향 같음

    • 그 방식은 지연 시간에 민감한 작업에는 유리하지만,
      AI나 HPC 같은 대규모 연산에는 큰 차이가 없을 수도 있음