18P by neo | ★ favorite | 댓글 3개
  • 소형 라즈베리파이 보드 4대를 분산 추론 노드로 묶어 Qwen3 30B MoE의 A3B Q40 양자화 모델을 실행한 셋업·벤치마크 사례 소개
  • 네트워크 스위치를 통해 ROOT 1대 + WORKER 3대(모두 Raspberry Pi 5 8GB) 로 네트워크 구성
  • 토큰 생성 속도는 평가 단계에서 14.33 tok/s, 예측 단계에서 13.04 tok/s로 측정
  • 모델은 Qwen3 MoE 아키텍처를 기반으로 하며, 48개의 레이어와 128개의 전문가로 구성
  • 저비용 하드웨어로 고성능 언어 모델을 실행 가능하게 하여, 라즈베리 파이 클러스터의 가능성 및 비용 효율적 AI 연구가 가능해짐

프로젝트 개요

  • Distributed Llama v0.16.0을 사용해 4대의 Raspberry Pi 5 8GB에서 Qwen3 30B A3B Q40 모델을 실행
    • 저비용 장치에서 대규모 언어 모델을 실행 가능하도록 설계
    • TP-Link LS1008G 스위치로 네트워크 연결
  • 주요 목표는 고성능 컴퓨팅 자원 없이도 AI 모델을 효율적으로 구동하는 것
    • 4대의 장치(1대 루트, 3대 워커)로 작업 분산
    • IP 주소: 루트(10.0.0.2), 워커(10.0.0.1, 10.0.0.3, 10.0.0.4)

하드웨어 및 네트워크 설정

  • 구성: 4대의 Raspberry Pi 5 8GB로 구성된 클러스터
    • 각 장치는 TP-Link LS1008G 스위치로 연결
    • 루트 노드와 3개의 워커 노드가 네트워크를 통해 통신
  • 네트워크 초기화: 모든 워커 노드(10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)에 성공적으로 연결
    • 비차단 모드로 네트워크 동작
    • 데이터 전송: 평가 시 송신 12084kB, 수신 20085kB
  • CPU 활용: Neon Dotprod FP16 지원으로 최적화된 연산 처리

모델 세부 정보

  • 모델: Qwen3 30B A3B Q40
    • 아키텍처: Qwen3 MoE (Mixture of Experts)
    • 레이어 수: 48개
    • 전문가 수: 128개, 활성 전문가 8개
    • 차원: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • 토크나이저: 어휘 크기 151669, 모델 어휘 크기 151936과 약간의 불일치
    • 일반 어휘 크기: 151643
    • 특수 어휘 크기: 26
  • 메모리 요구량: 5513MB
    • 최대 시퀀스 길이: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

벤치마크 성능

  • 평가 단계
    • 배치 수: 32
    • 토큰 수: 19
    • 토큰 생성 속도: 14.33 tok/s (69.80ms/tok)
  • 예측 단계
    • 토큰 수: 109
    • 토큰 생성 속도: 13.04 tok/s (76.69ms/tok)
  • 예측 세부 로그:
    • 각 예측 단계에서 약 49~70ms 소요, 동기화 시간 14~94ms
    • 송신 데이터 636kB, 수신 데이터 1057kB로 일정
    • 예: "Of", "course", "Poland" 등의 토큰 생성
    • 스레드 수: 4
    • 버퍼 플로트 타입: Q80
    • 최대 시퀀스 길이: 4096

주의·한계(Notes & Caveats)

  • Tokenizer vocab sizeModel vocab size 불일치 경고가 존재하므로, 토크나이저 일치성 검증이 필요함
  • A3B Q40공격적 양자화에 해당하므로 정밀도·응답 품질 트레이드오프를 염두에 둘 필요가 있음
  • Pi 5 8GB × 4 구성은 메모리·연산 한계가 있으므로 프롬프트 길이·동시성·네트워크 품질에 따른 변동 가능성이 큼

실무적 의미

  • 저비용 AI 실행 가능성을 보여주는 프로젝트
  • 저비용 SBC 클러스터30B급 MoE 모델을 분산 실행한 재현 사례로, 온프레미스 경량 추론·개발용 실험의 문턱을 낮추는 참고점이 될 수 있음
  • 토큰별 네트워크·동기화 로그가 포함되어 분산 오버헤드계측·튜닝하는 데 의미 있는 데이터를 제공함
  • 분산 프레임워크 + 양자화 모델 조합이 엣지/개인 연구 환경에서 TCO 대비 성능을 끌어올릴 수 있음
GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

n시리즈 미니pc도 저렴한데 16GB 4개로 묶으면... 생각해보니 8845에 32GB 올린 가격 나오겠네요 ㅎㅎ

대단하네요. 요즘 저부하 LLM 운용에 대한 정보가 점점 많이 나오는 기분이라 좋네요.