# 4개의 Raspberry Pi 5에서 Qwen3 30B A3B로 초당 13개 토큰 달성

> Clean Markdown view of GeekNews topic #22984. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22984](https://news.hada.io/topic?id=22984)
- GeekNews Markdown: [https://news.hada.io/topic/22984.md](https://news.hada.io/topic/22984.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-09-09T10:49:01+09:00
- Updated: 2025-09-09T10:49:01+09:00
- Original source: [github.com/b4rtaz](https://github.com/b4rtaz/distributed-llama/discussions/255)
- Points: 18
- Comments: 3

## Summary

4대의 **Raspberry Pi 5**를 **분산 클러스터**로 구성해 대규모 **Qwen3 30B MoE** 언어 모델을 실행하면서, 저가형 하드웨어에서도 초당 **13개 토큰** 생성이 가능한 **AI 추론 환경**을 구축한 사례입니다. 이 프로젝트는 **양자화(A3B Q40)** 기반 모델과 **분산 프레임워크**를 활용해, 적은 비용과 자원으로 **고성능 AI 모델** 구동이 가능한지를 보여주며, 온프레미스나 엣지에서의 **비용 효율적 연구·개발**이 가능하다는 것을 강조합니다.

## Topic Body

- 소형 라즈베리파이 보드 4대를 **분산 추론 노드**로 묶어 **Qwen3 30B MoE의 A3B Q40** 양자화 모델을 실행한 **셋업·벤치마크 사례** 소개  
- 네트워크 스위치를 통해 **ROOT 1대 + WORKER 3대**(모두 Raspberry Pi 5 8GB) 로 네트워크 구성  
- 토큰 생성 속도는 평가 단계에서 **14.33 tok/s**, 예측 단계에서 **13.04 tok/s**로 측정  
- 모델은 **Qwen3 MoE 아키텍처**를 기반으로 하며, 48개의 레이어와 128개의 전문가로 구성  
- 저비용 하드웨어로 고성능 언어 모델을 실행 가능하게 하여, **라즈베리 파이 클러스터**의 가능성 및 **비용 효율적 AI 연구**가 가능해짐   
  
---  
### 프로젝트 개요  
- **Distributed Llama v0.16.0**을 사용해 4대의 Raspberry Pi 5 8GB에서 Qwen3 30B A3B Q40 모델을 실행  
  - 저비용 장치에서 대규모 언어 모델을 실행 가능하도록 설계  
  - TP-Link LS1008G 스위치로 네트워크 연결  
- **주요 목표**는 고성능 컴퓨팅 자원 없이도 AI 모델을 효율적으로 구동하는 것  
  - 4대의 장치(1대 루트, 3대 워커)로 작업 분산  
  - IP 주소: 루트(10.0.0.2), 워커(10.0.0.1, 10.0.0.3, 10.0.0.4)  
  
### 하드웨어 및 네트워크 설정  
- **구성**: 4대의 Raspberry Pi 5 8GB로 구성된 클러스터  
  - 각 장치는 TP-Link LS1008G 스위치로 연결  
  - 루트 노드와 3개의 워커 노드가 네트워크를 통해 통신  
- **네트워크 초기화**: 모든 워커 노드(10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)에 성공적으로 연결  
  - 비차단 모드로 네트워크 동작  
  - 데이터 전송: 평가 시 송신 12084kB, 수신 20085kB  
- **CPU 활용**: Neon Dotprod FP16 지원으로 최적화된 연산 처리  
  
### 모델 세부 정보  
- **모델**: Qwen3 30B A3B Q40  
  - **아키텍처**: Qwen3 MoE (Mixture of Experts)  
  - **레이어 수**: 48개  
  - **전문가 수**: 128개, 활성 전문가 8개  
  - **차원**: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144  
- **토크나이저**: 어휘 크기 151669, 모델 어휘 크기 151936과 약간의 불일치  
  - 일반 어휘 크기: 151643  
  - 특수 어휘 크기: 26  
- **메모리 요구량**: 5513MB  
  - 최대 시퀀스 길이: 4096  
  - NormEpsilon: 0.000001, RopeTheta: 10000000  
  
### 벤치마크 성능  
- **평가 단계**  
  - 배치 수: 32  
  - 토큰 수: 19  
  - **토큰 생성 속도**: 14.33 tok/s (69.80ms/tok)  
- **예측 단계**  
  - 토큰 수: 109  
  - **토큰 생성 속도**: 13.04 tok/s (76.69ms/tok)  
- **예측 세부 로그**:  
  - 각 예측 단계에서 약 49~70ms 소요, 동기화 시간 14~94ms  
  - 송신 데이터 636kB, 수신 데이터 1057kB로 일정  
  - 예: "Of", "course", "Poland" 등의 토큰 생성  
  - 스레드 수: 4  
  - 버퍼 플로트 타입: Q80  
  - 최대 시퀀스 길이: 4096  
  
### 주의·한계(Notes & Caveats)  
- **Tokenizer vocab size**와 **Model vocab size** 불일치 경고가 존재하므로, **토크나이저 일치성 검증**이 필요함  
- **A3B Q40**은 **공격적 양자화**에 해당하므로 **정밀도·응답 품질** 트레이드오프를 염두에 둘 필요가 있음  
- **Pi 5 8GB × 4** 구성은 메모리·연산 한계가 있으므로 **프롬프트 길이·동시성·네트워크 품질**에 따른 변동 가능성이 큼  
  
### 실무적 의미   
- **저비용 AI 실행** 가능성을 보여주는 프로젝트  
- **저비용 SBC 클러스터**로 **30B급 MoE 모델**을 분산 실행한 **재현 사례**로, **온프레미스 경량 추론·개발용 실험**의 문턱을 낮추는 참고점이 될 수 있음  
- **토큰별 네트워크·동기화 로그**가 포함되어 **분산 오버헤드**를 **계측·튜닝**하는 데 의미 있는 데이터를 제공함  
- **분산 프레임워크 + 양자화 모델** 조합이 **엣지/개인 연구 환경**에서 **TCO 대비 성능**을 끌어올릴 수 있음

## Comments


### Comment 43569

- Author: seohc
- Created: 2025-09-10T02:08:26+09:00
- Points: 1

n시리즈 미니pc도 저렴한데 16GB 4개로 묶으면... 생각해보니 8845에 32GB 올린 가격 나오겠네요 ㅎㅎ

### Comment 43565

- Author: ndrgrd
- Created: 2025-09-10T01:05:58+09:00
- Points: 1

대단하네요. 요즘 저부하 LLM 운용에 대한 정보가 점점 많이 나오는 기분이라 좋네요.

### Comment 43538

- Author: developerjhp
- Created: 2025-09-09T10:57:02+09:00
- Points: 1

대박이네요..