# 라즈베리 파이에서 실시간으로 구동되는 300억 파라미터 Qwen 모델

> Clean Markdown view of GeekNews topic #25628. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25628](https://news.hada.io/topic?id=25628)
- GeekNews Markdown: [https://news.hada.io/topic/25628.md](https://news.hada.io/topic/25628.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-01-07T10:38:05+09:00
- Updated: 2026-01-07T10:38:05+09:00
- Original source: [byteshape.com](https://byteshape.com/blogs/Qwen3-30B-A3B-Instruct-2507/)
- Points: 22
- Comments: 1

## Summary

라즈베리 파이 5에서 **300억 파라미터 Qwen3-30B 모델**이 실시간으로 구동되며 8TPS 수준의 응답 속도를 달성했습니다. 이는 ByteShape의 **ShapeLearn 비트길이 학습법**이 각 텐서의 데이터타입을 조정해 메모리 한도 내에서 **속도와 품질의 균형**을 자동으로 찾아낸 결과인데요. 흥미롭게도 4비트 근처가 CPU·GPU 모두에서 최적 성능 구간으로 나타났으며, 단순히 비트를 줄이는 것이 속도 향상으로 이어지지 않는다는 점을 실험으로 확인했습니다. ByteShape는 메모리를 제약으로 보고 TPS와 품질을 함께 최적화하는 접근으로, 엣지 기기부터 데이터센터까지 일관된 효율을 보여줍니다. 이제 정말 작은 기기에서도 로컬 AI가 실행되는걸 보게 되겠네요.

## Topic Body

- **Qwen3-30B-A3B-Instruct-2507** 모델이 **라즈베리 파이 5(16GB)** 에서 실시간으로 동작하며, 8.03 TPS와 94.18%의 BF16 품질을 유지  
- ByteShape의 **ShapeLearn 비트길이 학습법**을 통해 각 장치의 메모리 한도 내에서 **속도와 품질의 균형**을 최적화  
- **Unsloth**와 **MagicQuant** 대비 동일 품질에서 더 높은 TPS 또는 동일 TPS에서 더 높은 품질을 달성  
- CPU, GPU(특히 RTX 5090·4080) 모두에서 **4비트 근처가 최적 성능 구간**으로 나타나며, 비트 수를 줄인다고 항상 속도가 빨라지지 않음  
- 전반적으로 ByteShape 모델은 **“메모리를 예산으로 보고 TPS/품질을 최적화”** 하는 접근으로 엣지부터 데이터센터까지 효율적 성능을 제공  

---

### ShapeLearn 기반 최적화 개요
- ByteShape는 모델 실행 시 사용자가 체감하는 **속도와 응답 품질**을 중심으로 최적화 수행  
  - **ShapeLearn**은 각 텐서의 가중치 데이터타입(bitlength)을 학습해 **TPS(초당 토큰 수)** 와 **출력 품질**을 동시에 극대화  
  - 목표는 단순한 파일 크기 축소가 아니라, **속도와 품질의 실제 균형** 개선  
- llama.cpp 환경에서는 비트 수를 줄여도 항상 속도가 향상되지 않으며, **커널 선택과 오버헤드**가 성능에 큰 영향을 미침  
- ByteShape는 메모리를 **“충분히 맞추는 예산”** 으로 보고, 그 이후에는 TPS와 품질을 중심으로 조정  

### Raspberry Pi 5 성능
- **라즈베리 파이 5(16GB)** 에서 30B 모델이 **8.5 TPS, 92% 이상 정확도** 유지  
  - **Q3_K_S-2.70bpw [KQ-2]** 모델은 실시간 대화 수준의 반응 속도 제공  
- **정확도 우선 모델**에서는 ByteShape가 **1.1~1.3% 상대 오차(약 98.8% 정확도)** 로 Unsloth보다 최대 1.87배 낮은 오류율 달성  
  - 동일 환경에서 **5~6 TPS** 유지, 정확도 중심 작업에 적합  
- **속도 우선 모델(Q3_K_S-3.25bpw [KQ-5])** 도 Unsloth 대비 더 작고 빠르며 정확도 우위 유지  
- Unsloth 및 MagicQuant의 다수 모델은 메모리 제약으로 Pi 환경에서 실행 불가  

### Intel i7 (64GB) 성능
- 모든 모델이 메모리에 적합한 환경에서 ByteShape가 **Unsloth·MagicQuant 대비 높은 품질과 TPS** 달성  
- **품질 중심 구간:** ByteShape의 **IQ4_XS-4.67bpw [KQ-9]** 모델이 Unsloth의 Q6_K 대비 **1.44배 낮은 오류율**과 더 높은 TPS 확보  
- **균형 구간:** ByteShape의 Q3_K_S-3.25bpw 모델이 Unsloth보다 **1.73배 낮은 오류율**, MagicQuant보다 **정확도·속도 모두 우위**  
- ByteShape만이 **26+ TPS** 영역과 고품질 영역을 동시에 커버  

### GPU 성능 비교 (RTX 5090 / RTX 4080)
- GPU에서는 **커널 선택과 VRAM 접근 효율**이 성능을 좌우  
  - **4비트 근처(~4bpw)** 가 TPS와 품질의 **스위트 스팟**으로 확인  
- **RTX 5090 (32GB)**  
  - Unsloth, MagicQuant, ByteShape 모두 4b 구간에서 302~303 TPS, 98.4~98.9% 정확도  
  - ByteShape의 **IQ4_XS-4.67bpw** 모델은 272.98 TPS, 99.75% 정확도로 최고 정확도 달성  
  - Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) 및 MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)보다 우위  
- **RTX 4080 (16GB)**  
  - VRAM 제약으로 4b 모델 불가, ByteShape가 동일 16GB 조건에서 Unsloth보다 **TPS·정확도 모두 우수**  
  - ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% 정확도  
    - Unsloth Q3_K_XL 대비 **1.59배 낮은 오류율, 9.4% 높은 TPS**  
    - Unsloth IQ2_M 대비 **2.54배 낮은 오류율**  

### 비트 수와 속도의 역설
- **3비트 이하로 줄여도 속도 향상은 보장되지 않음**  
  - GPU는 32스레드 워프 단위로 동작하며, 특정 데이터 형식과 접근 패턴에 최적화되어 있음  
  - VRAM은 32바이트 정렬 블록 단위로 읽기 때문에, 더 작은 데이터도 동일 대역폭 사용  
  - 낮은 비트폭은 **디코딩 오버헤드 증가**로 오히려 느려질 수 있음  
- 예시: RTX 5090에서 `iq4_xs`는 54µs, `iq3_xxs`는 62µs 소요 → **25% 용량 감소가 13% 속도 저하로 이어짐**  
- ShapeLearn은 이러한 하드웨어 특성을 고려해 **텐서별 데이터타입을 선택**, 속도와 정확도를 동시에 확보  

### 평가 방법 및 결론
- 모든 모델은 동일한 평가 하니스로 **TPS**와 **정규화된 품질 점수(BF16 대비)** 측정  
  - 품질 평가는 **MMLU, GSM8K, IFEval, LiveCodeBench V4** 결과를 통합  
- 핵심 결론:  
  - **“메모리를 목표가 아닌 제약으로 다루라.”**  
  - 모델이 장치에 맞게 적재되면, 이후에는 **TPS와 품질의 균형 곡선**이 중요  
  - ByteShape는 모든 장치에서 **동일 품질 대비 더 빠르거나, 동일 속도 대비 더 높은 품질**을 달성  
- 라즈베리 파이 5에서는 **Q3_K_S-2.70bpw [KQ-2]** 모델이 실시간 대화에 적합  
- 대형 CPU·GPU 환경에서도 동일 원칙 적용: **“먼저 맞추고, 그다음 최적화하라.”**  
- ByteShape는 향후 더 많은 **장치별 최적화 모델**을 지속 공개 예정

## Comments


### Comment 48792

- Author: neo
- Created: 2026-01-07T10:38:05+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46518573) 
- 나는 여기에 **큰 시장 기회**가 있다고 생각함  
  내가 원하는 건 Alexa 같은 음성 비서지만, **로컬 추론과 저장소**를 기반으로 한 표준화된 구성요소를 가진 시스템임  
  - 대화형 장치: 좋은 스피커와 음성 제어 기능을 갖춘 Alexa/Google/Apple류의 기기, 혹은 TV 입력 장치. Wi-Fi 확장기나 라우터 역할도 하면 좋겠음. 각 방마다 하나씩 두어 **진짜 메쉬 네트워크**를 만들고 싶음  
  - 홈 클라우드 서버: 저렴한 CPU, 약간의 RAM, 충분한 저장공간을 가진 장치로, 집의 앱과 네트워크 백업을 관리하는 중심 노드가 되었으면 함  
  - 추론 엔진: 표준 방식으로 서비스 광고를 하고, 제어 노드가 자동으로 연결되면 좋겠음. 그냥 꽂으면 바로 작동하는 **플러그 앤 플레이** 환경을 원함  
  핵심은 **프라이버시**와 상호운용성임. 계정 등록이나 외부 서버 연결이 필요하면 구매하지 않을 것임. “Freddy, 타이머 10분 설정해줘” 같은 명령을 로컬에서 처리하고 싶음
  - 아직 완전한 플러그 앤 플레이 제품은 없지만, 나는 **Home Assistant**와 그 **Voice Preview Edition**으로 꽤 좋은 결과를 얻었음  
    여러 개의 저가형 Wi-Fi + 마이크 + 스피커 장치를 집안 곳곳에 두고, 음성 처리는 중앙의 고성능 박스에서 수행하는 구조임  
    결국 이건 하나의 프로그램처럼 동작하므로, 약간 더 강력한 머신에 Wi-Fi 카드를 추가하면 **Wi-Fi 확장기** 역할도 가능함
  - 나도 이 아이디어에 공감함. Home Assistant(HA)에서 ChatGPT로 음성 연결을 매끄럽게 만드는 데 어려움을 겪고 있음  
    **웨이크워드(wake word)** 개념도 마음에 들지 않음. 전체 스택에 아직 개선할 부분이 많다고 느낌
  - 그리고 **장난감**에도 이런 시스템이 적용되면 재미있을 것 같음

- 다양한 모델을 쉽게 비교할 수 있는 좋은 자료가 있는지 궁금함  
  gpt-oss-20b와 gpt-oss-120b의 **파라미터 수 차이**는 알지만, 실제 성능 차이를 잘 모르겠음  
  Gemini나 GPT 같은 대형 모델만 써봤는데, 내 하드웨어에서 어느 정도 작은 모델까지 유용하게 쓸 수 있을지 알고 싶음  
  - [swe-rebench.com](https://swe-rebench.com/)에서 모델별 벤치마크를 비교해볼 수 있음

- “실시간” 성능이 어느 정도인지 궁금해서 찾아봤음  
  Pi 5(16GB)에서 Q3_K_S-2.70bpw [KQ-2] 모델이 **8.03 TPS**를 기록하고, **BF16 품질의 94.18%** 를 유지한다고 함  
  기사에서 다른 하드웨어 세부사항도 다루고 있음  
  - 이런 핵심 수치만 추려서 보여주는 **Hacker News 요약 페이지**가 있으면 좋겠다고 생각함

- 나도 Pi 5(16GB)에서 최신 llama.cpp로 실험해봤는데 **세그멘테이션 폴트(segfault)** 가 발생했음  
  메모리 부족 오류 메시지가 뜨고, 약 10GB RAM을 사용하다가 종료됨  
  `-c 4096` 옵션으로 **컨텍스트 크기를 줄이니** 로드가 성공했음  
  - [illama](https://codeberg.org/ikawrakow/illama)나 [ik_llama.cpp](https://github.com/ikawrakow/ik_llama.cpp)의 **4비트 양자화 모델**, 혹은 [Microsoft BitNet](https://github.com/microsoft/BitNet)도 시도해볼 만함  
    [BitNet b1.58-2B-4T-gguf](https://huggingface.co/microsoft/bitnet-b1.58-2B-4T-gguf) 같은 모델은 **저사양 장치나 iGPU만 있는 사무용 PC**에서도 비교 실험하기 좋을 듯함  
  - 혹시 **스왑 메모리**를 추가했을 가능성도 있음

- 정확도 측정 방식이 일반적인 **perplexity**와 다른지 궁금함  
  BF16에서 2.8로 줄였는데 품질 손실이 5%밖에 안 된다는 게 의아함

- GPT-OSS-20B는 **11.2GB** 정도라서, 16GB 메모리 장비에서도 품질 저하 없이 충분히 구동 가능함