$3,000짜리 Pi AI 클러스터를 만든 걸 후회해요

(jeffgeerling.com)

3P by GN⁺ 2달전 | ★ favorite | 댓글 5개

라즈베리파이 Compute Blade 10개와 CM5 모듈을 이용해 약 3천 달러 규모의 AI 클러스터를 구축했지만, 성능과 가성비 면에서 기대에 미치지 못했음
HPC 벤치마크에서는 단일 Pi 대비 10배 성능 향상(325 Gflops) 을 얻었으나, Framework 데스크톱 클러스터보다 4배 느린 결과를 보여줌
AI 테스트에서는 GPU 가속이 지원되지 않아 CPU 기반 추론에 의존했고, Llama 70B 모델 실행 시 토큰 생성 속도가 0.85 t/s 수준으로 매우 낮았음
다만, 저전력·저소음·고밀도라는 장점으로 CI 작업, 보안이 중요한 엣지 배포, Tor 릴레이 노드 같은 특수한 용도에는 의미가 있을 수 있음
전체적으로는 학습·실험 목적에는 재미가 있지만, 일반적인 AI/HPC 활용에는 적합하지 않음을 강조하며, 블레이드 서버의 한계를 드러낸 사례임

서론 및 클러스터 개요

2년 전인 2023년 4월에 10개의 Compute Blade를 주문했으며, 최근에야 모두 도착하여 클러스터를 완성함
그 사이에 Raspberry Pi가 CM4에서 CM5로 업그레이드되었기 때문에 16GB CM5 Lite 모듈 10개를 추가 주문, 총 160GB의 메모리 구성을 완성함
총 비용은 3,000달러(배송비 포함) 로 개인이 만든 가장 큰 Pi 클러스터였음
Pi 기반 블레이드 컴퓨터로는 Xerxes Pi도 있지만, 출시 및 배송 지연 가능성이 크고, 이에 대해서도 호기심으로 후원을 했음
Pi 클러스터가 과연 여전히 가치 있는가가 궁금했고, 성능·밀도·효율을 Framework 데스크톱 클러스터와 비교하며 투자 가치가 있는지 검증하려 했음

클러스터 구축 및 반복적인 작업

여러 차례 SSD 호환성 문제와 발열 문제로 클러스터를 세 번이나 재조립
- 1차 재조립: 다양한 NVMe SSD를 사용했으나 호환성 및 신뢰성 문제 발생 하여 Patriot P300 SSD로 전량 교체 후 안정성 개선
- 2차 재조립: 발열로 인한 쓰로틀링 발생하여 히트싱크를 단단히 고정함으로써 열 관리 문제 해결

HPC(High Performance Computing) 벤치마크 결과

High Performance Linpack(Top500) 벤치마크로 슈퍼컴퓨터 성능을 측정
- 히트싱크 장착 이전에는 275 Gflops 성능, 이후에는 최대 325 Gflops로 상승
- 이 수치는 내장 8GB CM5 단일 노드 대비 10배 성능이며, 전력소비는 130W
그러나 8,000달러 Framework Desktop 4-노드 클러스터와 비교하면 Pi 클러스터는 4배 느림
에너지 효율성(Gflops/W)에서는 근소한 우위가 있지만, 가격 대비 성능에서는 Framework 클러스터에 못 미침
대규모 HPC에 적합한 솔루션은 아님

AI 활용성 테스트와 한계

160GB의 메모리로 AI 클러스터를 기대했으나, Pi 5의 iGPU에서는 Vulkan을 통한 가속이 불가함
AI 추론은 CPU에 한정되며, Arm Cortex A76의 한계로 인해 처리 성능이 크게 저하됨
Llama 3.2:3B 모델의 경우, 한 노드에서 초당 6토큰 처리에 그침(상대적으로 느림)
노드 전체를 활용해 대용량 모델(Llama 3.3:70B)을 분산 처리해도 0.28~0.85 토큰/초에 머무름(Framework 클러스터보다 최소 5~25배 느림)
Exo, distributed-llama와 같은 다른 분산 AI 도구도 실사용에는 불안정하거나 성능이 부족함
전체적으로 AI 워크로드에는 부적합

결론 및 현실적인 용도 제안

Pi 블레이드 클러스터는 성능/가성비 면에서 경쟁력이 떨어지는 선택지이며, 학습·실험·취미 목적 외에는 추천하기 어려움
반면, 관리 용이성, 저소음, 컴팩트함, 노드 밀도 및 분리성에서는 장점이 있음
실질적으로는 CI(지속적 통합) 작업 또는 고보안·엣지 컴퓨팅처럼 격리된 환경을 요구하는 환경에서 제한적으로 고려 가능
Unredacted Labs에서는 Tor exit relay 등 대량 노드 환경에서 효율성과 노드 밀도를 극대화하기 위해 사용중
그러나 일반적인 대부분의 사용자는 비슷한 비용에서 더 높은 성능과 효율성의 다른 대안이 존재함
제조사 Gateworks 또한 산업용 GBlade를 한때 판매했지만, 시장적 성공은 거두지 못했고 단종됨
유지 관리와 실용성 측면에서 대형 클러스터 운영에 비해 단순하지만, 특별한 이유가 없는 한 추천하기 어려운 환경임

사용 부품 목록

(작성자는 별도로 사용한 부품 리스트를 소개했지만, 비슷한 구성을 그대로 복제하는 것은 권하지 않는다고 언급함)

▲

chcv0313 2달전 [-]

엄청 재밌게 놀아놓고는 후회한다니 ㅋ 게임 플레이타임이 1000시간이 넘어가는데 재미 없다고 하는 거랑 뭐가 달라

답변달기

▲

gafani 2달전 [-]

비유가 찰떡입니다 ㅋㅋ

답변달기

▲

kandk 2달전 [-]

ㅋㅋㅋㅋㅋㅋㅋㅋㅋ

답변달기

▲

euphcat 2달전 [-]

Vulkan 관련해서 정확히 말하면 'Pi 5의 iGPU가 지원하는 Vulkan API는 llama.cpp에서 아직 지원하지 않음'이 맞네요. 이게 지원됐다면 성능이 얼마나 나왔을지도 호기심이 드네요.

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견

분산 시스템에 관심 있는 분들에게는 최신 16코어 AMD CPU가 장착된 싱글 머신에 8개의 가상머신을 띄워보는 것을 강력 추천함. 각 VM에 4개의 하이퍼스레드, 전체 RAM의 1/8씩 할당하면 되고, Proxmox 같은 가상화 소프트웨어 내에서 가상 네트워크를 만들어서 클러스터 경험을 할 수 있음. 실제로 한 번에 한 VM을 클릭 한 번으로 중단시켜가며 복원력 테스트도 할 수 있음. 이런 방식이 Pi 클러스터보다 Perf/W, 편의성 면에서 훨씬 뛰어남. 부품 조립 스트레스 없이, CPU, 메인보드, m.2 SSD, RAM 두 개만 있으면 됨. 물론 고코어 머신에서 가상화 없이 직접 돌리면 가장 높은 Perf/W가 나오지만, 벤치마크에서 간과되는 부분은 Idle W 소모임. 클러스터를 계속 켜 놓고 드물게 사용할 때 이 부분도 매우 중요함
- CPU 성능이 그렇게 높을 필요 없다고 봄. 구형 쿼드코어로도 충분히 가능함
- 관련된 이야기로, 나는 예전 MPI 프로그램을 AMD 멀티칩 워크스테이션 같은 환경에서 돌리는 게 더 커질 줄 알았는데 그렇지 않아서 의외였음
- 사실 이 정도 CPU 파워가 필요한지 의문임. 분산 시스템 실습이라면 옛날 리눅스 박스나 라즈베리파이 한 대에도 Erlang만 깔면 몇 개 노드 구성해서 충분히 실험할 수 있음
- 몇 년 전 Raspberry Pi 대란 때 사람들이 이 장난감 클러스터 만들려고 엄청 구하려고 했던 거 안타까웠음. Pi는 원래 교육 목적이었는데, 실제론 낭비되는 경우가 많다고 생각함. 나는 xcp-ng로 K8s "클러스터" 하나 돌리는데, 사실 이보다 더 단순하게도 가능함. Docker Machine도 한 줄로 호스트 여러대 띄울 수 있었음. 지금은 프로젝트가 종료된 것 같지만 Docker Swarm이라면 하이퍼바이저 없이도 쉽게 서비스 스케일 조절 가능함
- 나는 이 방식으로 Postgres hot standby, read replica 실습함. Hadoop이나 Cassandra 클러스터도 이 방식으로 공부했음. 이런 시스템의 설정 및 복구 시뮬레이션 경험을 얘기할 수 있었던 덕분에 연봉이 두 배, 세 배로 오른 새로운 일도 얻음. 어느 정도 실무 실력이 있는 개발자라면 꼭 이런 실습을 해볼 것을 적극 추천함. 경력 레벨업에 매우 도움이 됨
NormConf 세션 “Just use one big machine for model training and inference.”가 떠오름. 관련 영상 추천. 그리고 오래된 명작 논문 “Scalability! But at what COST?” (링크)도 정말 흥미로움. 결론만 요약하자면, 병렬처리의 퍼포먼스는 Amdahl's Law 너머로 신경쓸 요소가 정말 많음. 스케일아웃 시스템은 싱글 노드에 없는 부가 작업이 잔뜩 필요함. 사실 멀티스레드 역시 순차 코드에는 없는 작업이 많아짐. 진짜 성능의 비밀은 “실행하지 않는 연산이 가장 빠르다”는 점임
내가 첫번째로 돌린 벤치는 top500 High Performance Linpack 클러스터 벤치였음. 전통적 슈퍼컴퓨터 성능 측정법이라 애정함. 써멀 문제 해결하니 130W 정도 쓰고 325 Gflops 나옴. top500 사이트의 리스트가 1993년부터라, 70년대 어처구니없는 역사 속에 Pi 클러스터가 들어갈 수 있을까 기대했는데 꽤 최근임. 1993년(1위 131 Gflop/s, 10위 15.24Gflop/s)~1997년(1위 1,830,40, 10위 326.4), 2002~2003년에 top500에선 빠지는 듯함. Rpeak 기준이라 Rmax로 재정렬해야 정확하겠지만, 전체 통과는 힘드니 생략함. 이런 장난감 클러스터 치곤 꽤 선전했다고 생각함. 예전 “애플워치가 아폴로 컴퓨터보다 빠르다” 류 농담에 익숙하다보니 더 옛날까지 갈 줄 알았음
RPI는 항상 CPU 성능이 형편없었음. 애초에 싸구려 Broadcom 칩을 활용해 “교육용”이라는 명분으로 만든 게 Pi의 취지였음. 아이들이 라즈베리파이로 LED 깜빡이며 회로 배우는 용도임. Pi 클러스터로 고성능 연산 하겠다는 생각은 처음부터 말도 안 됨
글 내용을 너무 곧이곧대로 받아들이지 말아야 함. 글쓴이는 성공한 테크 인플루언서로, 비싼 장비를 사서 자랑한 뒤, 그 가격이 억울하다고 툴툴거리며 돈을 법음. 그의 경제관이 내 경제관과 같을 필요 없음
- 그건 당연한 얘기지만, 진짜 포인트는 지금 뭔가를 하려고 한다면 답이 라즈베리파이가 아닐 가능성이 높다는 점임. 가격 대비 스펙이 전혀 안 맞고 시장도 정체임
- Jeff의 영상은 그럼에도 신선하다고 생각함. 다른 유튜버들은 반복적으로 “유튜브 영상용 렌더타임, 색 정확도, 카메라 화질, 오디오 퀄리티”만 비교하는 컨텐츠에 빠져 있는데, 그는 다름
- Dan Luu가 이런 콘텐츠로 전향했으면 하는 바람임
- 만들 줄 아는 사람이라면 GPU 한 대로 컴퓨팅 성능이 10배 뛰는 거 이미 다 알고 있음
헤드라인은 조금 자극적으로 느껴졌지만, 작성자는 실험 자체와 장비 조립에서 정말 즐거워했던 것 같음. 하지만 “2023년 4월에 Compute Blades 10개 세트를 주문했는데 이번에 도착했다”는 첫 문장은 꽤나 아쉬움
- 그게 가장 큰 후회임. 나는 지금까지 Kickstarter 프로젝트 6개 후원했는데, 평균 배송 기간은 1년쯤 됨. 그래도 신기하게도 모두 다 결국 배송 받았음. 하드웨어 스타트업은 진짜 어렵고, 소규모 아이디어로 시작하다 고객 배송 전 절반 이상이 망하는 걸 여러 번 겪었음. 운이 좋아야 시제품·샘플만 겨우 만들어 보내고 배송·물류 과정에서 결국 큰 혼란을 겪는 경우가 많음
Pi 클러스터가 정말 성능 대비 비용 경쟁력이 있었다면, 데이터센터들이 이미 Pi로 가득 차 있었을 것임
- 이거 마치 경제학자 농담 “지상에 떨어진 20달러를 아무도 안 줍는 이유”랑 비슷함. 완벽한 시장 효율성은 장기적으론 작동해도, 단기적으로는 익숙한 습관과 경험적 직관이 대부분임
- 플레이스테이션 얘기도 똑같이 나왔다는 점을 잊으면 안 됨
- Pi 클러스터는 ... 아무 용도로도 진짜 가격경쟁력이 없는 것 같음
- Mythic Beasts라는 기업에서 rpi 서버 임대 서비스를 함(링크). 아주 소규모 시장에서는 분명히 활용처가 있긴 함
지난 10년간 슈퍼컴퓨터들이 GPU를 쓰는 데엔 이유가 있음. GPU가 훨씬 효율적임. 32bit 병렬처리가 필요하면 소비자용 GPU를, 64bit가 필요하면 RTX 6000 Pro 같은 프로슈머급 GPU만 사서 꽂으면 끝임. 지금은 아무도 CPU 클러스터를 만들지 않음
- 불행하게도 RTX 6000 Pro도 더블 프리시전 성능은 2 TFLOPS로 싱글 프리시전보다 64배 느림. EPYC 9755는 약 10 TFLOPS, 그것도 더 적은 전력으로 가능함. A100도 마찬가지. 취미 수준에서 HPC용 DP 연산을 원한다면 예전 AMD 구형 카드가 차라리 나음. 요즘은 과학자 고객들이 높은 정밀도 성능에 큰 대가를 치른다는 걸 AMD/NVIDIA 다 알게 됨
- El Capitan 슈퍼컴퓨터도 AMD CPU(내장 GPU 있음)를 쓰는데 최근 랭킹 1위권임. Frontier도 비슷한 구성이 뒤를 이음. GPU가 각자 데이터버스·메모리 분리된 형태가 꼭 최적은 아님
Pi 클러스터는 사실 높은 성능을 노리는 게 아니라, 재밌는 취미용 ‘괴짜’ 장비임. 애초에 비용 효과적인 방법을 기대하는 사람은 거의 없음. 유튜브식 자극적인 헤드라인이 블로그로 번진 현상 같음. 실제로 리눅스 클러스터 실습이 목적이라면 데스크톱 CPU에 하이퍼바이저 깔고 VM 만들면 훨씬 경제적임. 케이블 여러 개 꽂으며 감성 느끼는 게 목적이 아니라면, 결국 시스템 자원 활용도와 유연함에서 이 방식이 훨씬 효율적임
- 진짜 비용 효과적으로 실습하려면 클라우드를 쓰면 됨. 보통 실습 끝내고 금방 흥미를 잃기 때문에, 데스크탑 기기 값보다 먼저 클라우드 과금이 끝날 가능성이 높음
- 계산을 해봤는데, Mac Studio에 최신 Mx Ultra 프로세서와 최고용량 메모리를 사는 게 100B+ 파라미터 모델을 실험하는 가장 비용효율적인 방법임
- 전통적 컴퓨팅에서는 공간만 손해지만 전력·비용 측면에서는 승리임. 하지만 AI에서는 GPU를 쓰지 못했고, llama.cpp의 클러스터링 SW가 미성숙해 유의미한 결론 내리기 어려움. 소프트웨어가 좋아지면 바뀔 수도 있음
- 이런 논의에서 기술적 배경 없어도 결론은 명확히 내릴 수 있다고 봄. 모두가 AI에 GPU 쓰는 현실과 NVIDIA 주가 폭등만 봐도 답이 있음. 정말로 OP가 세상이 라즈베리파이만 꽂을 줄 모르고 있었다고 생각했던 건지 의문임
- 일부 Raspberry Pi 제품은 적자 판매라서, 이 부분 때문에라도 “가격경쟁력이 있을 수도 있다”는 오해가 생길 수 있음
“블로그에 왔다면 영상보다 글을 더 좋아할 테니 바로 넘어가겠다”라는 작가 멘트, 고마움을 느낌

답변달기