4개의 Raspberry Pi 5에서 Qwen3 30B A3B로 초당 13개 토큰 달성

(github.com/b4rtaz)

18P by neo 10달전 | ★ favorite | 댓글 3개

소형 라즈베리파이 보드 4대를 분산 추론 노드로 묶어 Qwen3 30B MoE의 A3B Q40 양자화 모델을 실행한 셋업·벤치마크 사례 소개
네트워크 스위치를 통해 ROOT 1대 + WORKER 3대(모두 Raspberry Pi 5 8GB) 로 네트워크 구성
토큰 생성 속도는 평가 단계에서 14.33 tok/s, 예측 단계에서 13.04 tok/s로 측정
모델은 Qwen3 MoE 아키텍처를 기반으로 하며, 48개의 레이어와 128개의 전문가로 구성
저비용 하드웨어로 고성능 언어 모델을 실행 가능하게 하여, 라즈베리 파이 클러스터의 가능성 및 비용 효율적 AI 연구가 가능해짐

프로젝트 개요

Distributed Llama v0.16.0을 사용해 4대의 Raspberry Pi 5 8GB에서 Qwen3 30B A3B Q40 모델을 실행
- 저비용 장치에서 대규모 언어 모델을 실행 가능하도록 설계
- TP-Link LS1008G 스위치로 네트워크 연결
주요 목표는 고성능 컴퓨팅 자원 없이도 AI 모델을 효율적으로 구동하는 것
- 4대의 장치(1대 루트, 3대 워커)로 작업 분산
- IP 주소: 루트(10.0.0.2), 워커(10.0.0.1, 10.0.0.3, 10.0.0.4)

하드웨어 및 네트워크 설정

구성: 4대의 Raspberry Pi 5 8GB로 구성된 클러스터
- 각 장치는 TP-Link LS1008G 스위치로 연결
- 루트 노드와 3개의 워커 노드가 네트워크를 통해 통신
네트워크 초기화: 모든 워커 노드(10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)에 성공적으로 연결
- 비차단 모드로 네트워크 동작
- 데이터 전송: 평가 시 송신 12084kB, 수신 20085kB
CPU 활용: Neon Dotprod FP16 지원으로 최적화된 연산 처리

모델 세부 정보

모델: Qwen3 30B A3B Q40
- 아키텍처: Qwen3 MoE (Mixture of Experts)
- 레이어 수: 48개
- 전문가 수: 128개, 활성 전문가 8개
- 차원: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
토크나이저: 어휘 크기 151669, 모델 어휘 크기 151936과 약간의 불일치
- 일반 어휘 크기: 151643
- 특수 어휘 크기: 26
메모리 요구량: 5513MB
- 최대 시퀀스 길이: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000

벤치마크 성능

평가 단계
- 배치 수: 32
- 토큰 수: 19
- 토큰 생성 속도: 14.33 tok/s (69.80ms/tok)
예측 단계
- 토큰 수: 109
- 토큰 생성 속도: 13.04 tok/s (76.69ms/tok)
예측 세부 로그:
- 각 예측 단계에서 약 49~70ms 소요, 동기화 시간 14~94ms
- 송신 데이터 636kB, 수신 데이터 1057kB로 일정
- 예: "Of", "course", "Poland" 등의 토큰 생성
- 스레드 수: 4
- 버퍼 플로트 타입: Q80
- 최대 시퀀스 길이: 4096

주의·한계(Notes & Caveats)

Tokenizer vocab size와 Model vocab size 불일치 경고가 존재하므로, 토크나이저 일치성 검증이 필요함
A3B Q40은 공격적 양자화에 해당하므로 정밀도·응답 품질 트레이드오프를 염두에 둘 필요가 있음
Pi 5 8GB × 4 구성은 메모리·연산 한계가 있으므로 프롬프트 길이·동시성·네트워크 품질에 따른 변동 가능성이 큼

실무적 의미

저비용 AI 실행 가능성을 보여주는 프로젝트
저비용 SBC 클러스터로 30B급 MoE 모델을 분산 실행한 재현 사례로, 온프레미스 경량 추론·개발용 실험의 문턱을 낮추는 참고점이 될 수 있음
토큰별 네트워크·동기화 로그가 포함되어 분산 오버헤드를 계측·튜닝하는 데 의미 있는 데이터를 제공함
분산 프레임워크 + 양자화 모델 조합이 엣지/개인 연구 환경에서 TCO 대비 성능을 끌어올릴 수 있음

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

seohc 10달전 [-]

n시리즈 미니pc도 저렴한데 16GB 4개로 묶으면... 생각해보니 8845에 32GB 올린 가격 나오겠네요 ㅎㅎ

ndrgrd 10달전 [-]

대단하네요. 요즘 저부하 LLM 운용에 대한 정보가 점점 많이 나오는 기분이라 좋네요.

developerjhp 10달전 [-]

대박이네요..