18P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Qwen3-30B-A3B-Instruct-2507 모델이 라즈베리 파이 5(16GB) 에서 실시간으로 동작하며, 8.03 TPS와 94.18%의 BF16 품질을 유지
  • ByteShape의 ShapeLearn 비트길이 학습법을 통해 각 장치의 메모리 한도 내에서 속도와 품질의 균형을 최적화
  • UnslothMagicQuant 대비 동일 품질에서 더 높은 TPS 또는 동일 TPS에서 더 높은 품질을 달성
  • CPU, GPU(특히 RTX 5090·4080) 모두에서 4비트 근처가 최적 성능 구간으로 나타나며, 비트 수를 줄인다고 항상 속도가 빨라지지 않음
  • 전반적으로 ByteShape 모델은 “메모리를 예산으로 보고 TPS/품질을 최적화” 하는 접근으로 엣지부터 데이터센터까지 효율적 성능을 제공

ShapeLearn 기반 최적화 개요

  • ByteShape는 모델 실행 시 사용자가 체감하는 속도와 응답 품질을 중심으로 최적화 수행
    • ShapeLearn은 각 텐서의 가중치 데이터타입(bitlength)을 학습해 TPS(초당 토큰 수)출력 품질을 동시에 극대화
    • 목표는 단순한 파일 크기 축소가 아니라, 속도와 품질의 실제 균형 개선
  • llama.cpp 환경에서는 비트 수를 줄여도 항상 속도가 향상되지 않으며, 커널 선택과 오버헤드가 성능에 큰 영향을 미침
  • ByteShape는 메모리를 “충분히 맞추는 예산” 으로 보고, 그 이후에는 TPS와 품질을 중심으로 조정

Raspberry Pi 5 성능

  • 라즈베리 파이 5(16GB) 에서 30B 모델이 8.5 TPS, 92% 이상 정확도 유지
    • Q3_K_S-2.70bpw [KQ-2] 모델은 실시간 대화 수준의 반응 속도 제공
  • 정확도 우선 모델에서는 ByteShape가 1.1~1.3% 상대 오차(약 98.8% 정확도) 로 Unsloth보다 최대 1.87배 낮은 오류율 달성
    • 동일 환경에서 5~6 TPS 유지, 정확도 중심 작업에 적합
  • 속도 우선 모델(Q3_K_S-3.25bpw [KQ-5]) 도 Unsloth 대비 더 작고 빠르며 정확도 우위 유지
  • Unsloth 및 MagicQuant의 다수 모델은 메모리 제약으로 Pi 환경에서 실행 불가

Intel i7 (64GB) 성능

  • 모든 모델이 메모리에 적합한 환경에서 ByteShape가 Unsloth·MagicQuant 대비 높은 품질과 TPS 달성
  • 품질 중심 구간: ByteShape의 IQ4_XS-4.67bpw [KQ-9] 모델이 Unsloth의 Q6_K 대비 1.44배 낮은 오류율과 더 높은 TPS 확보
  • 균형 구간: ByteShape의 Q3_K_S-3.25bpw 모델이 Unsloth보다 1.73배 낮은 오류율, MagicQuant보다 정확도·속도 모두 우위
  • ByteShape만이 26+ TPS 영역과 고품질 영역을 동시에 커버

GPU 성능 비교 (RTX 5090 / RTX 4080)

  • GPU에서는 커널 선택과 VRAM 접근 효율이 성능을 좌우
    • 4비트 근처(~4bpw) 가 TPS와 품질의 스위트 스팟으로 확인
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant, ByteShape 모두 4b 구간에서 302~303 TPS, 98.4~98.9% 정확도
    • ByteShape의 IQ4_XS-4.67bpw 모델은 272.98 TPS, 99.75% 정확도로 최고 정확도 달성
    • Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) 및 MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)보다 우위
  • RTX 4080 (16GB)
    • VRAM 제약으로 4b 모델 불가, ByteShape가 동일 16GB 조건에서 Unsloth보다 TPS·정확도 모두 우수
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% 정확도
      • Unsloth Q3_K_XL 대비 1.59배 낮은 오류율, 9.4% 높은 TPS
      • Unsloth IQ2_M 대비 2.54배 낮은 오류율

비트 수와 속도의 역설

  • 3비트 이하로 줄여도 속도 향상은 보장되지 않음
    • GPU는 32스레드 워프 단위로 동작하며, 특정 데이터 형식과 접근 패턴에 최적화되어 있음
    • VRAM은 32바이트 정렬 블록 단위로 읽기 때문에, 더 작은 데이터도 동일 대역폭 사용
    • 낮은 비트폭은 디코딩 오버헤드 증가로 오히려 느려질 수 있음
  • 예시: RTX 5090에서 iq4_xs는 54µs, iq3_xxs는 62µs 소요 → 25% 용량 감소가 13% 속도 저하로 이어짐
  • ShapeLearn은 이러한 하드웨어 특성을 고려해 텐서별 데이터타입을 선택, 속도와 정확도를 동시에 확보

평가 방법 및 결론

  • 모든 모델은 동일한 평가 하니스로 TPS정규화된 품질 점수(BF16 대비) 측정
    • 품질 평가는 MMLU, GSM8K, IFEval, LiveCodeBench V4 결과를 통합
  • 핵심 결론:
    • “메모리를 목표가 아닌 제약으로 다루라.”
    • 모델이 장치에 맞게 적재되면, 이후에는 TPS와 품질의 균형 곡선이 중요
    • ByteShape는 모든 장치에서 동일 품질 대비 더 빠르거나, 동일 속도 대비 더 높은 품질을 달성
  • 라즈베리 파이 5에서는 Q3_K_S-2.70bpw [KQ-2] 모델이 실시간 대화에 적합
  • 대형 CPU·GPU 환경에서도 동일 원칙 적용: “먼저 맞추고, 그다음 최적화하라.”
  • ByteShape는 향후 더 많은 장치별 최적화 모델을 지속 공개 예정
Hacker News 의견들
  • 나는 여기에 큰 시장 기회가 있다고 생각함
    내가 원하는 건 Alexa 같은 음성 비서지만, 로컬 추론과 저장소를 기반으로 한 표준화된 구성요소를 가진 시스템임

    • 대화형 장치: 좋은 스피커와 음성 제어 기능을 갖춘 Alexa/Google/Apple류의 기기, 혹은 TV 입력 장치. Wi-Fi 확장기나 라우터 역할도 하면 좋겠음. 각 방마다 하나씩 두어 진짜 메쉬 네트워크를 만들고 싶음
    • 홈 클라우드 서버: 저렴한 CPU, 약간의 RAM, 충분한 저장공간을 가진 장치로, 집의 앱과 네트워크 백업을 관리하는 중심 노드가 되었으면 함
    • 추론 엔진: 표준 방식으로 서비스 광고를 하고, 제어 노드가 자동으로 연결되면 좋겠음. 그냥 꽂으면 바로 작동하는 플러그 앤 플레이 환경을 원함
      핵심은 프라이버시와 상호운용성임. 계정 등록이나 외부 서버 연결이 필요하면 구매하지 않을 것임. “Freddy, 타이머 10분 설정해줘” 같은 명령을 로컬에서 처리하고 싶음
    • 아직 완전한 플러그 앤 플레이 제품은 없지만, 나는 Home Assistant와 그 Voice Preview Edition으로 꽤 좋은 결과를 얻었음
      여러 개의 저가형 Wi-Fi + 마이크 + 스피커 장치를 집안 곳곳에 두고, 음성 처리는 중앙의 고성능 박스에서 수행하는 구조임
      결국 이건 하나의 프로그램처럼 동작하므로, 약간 더 강력한 머신에 Wi-Fi 카드를 추가하면 Wi-Fi 확장기 역할도 가능함
    • 나도 이 아이디어에 공감함. Home Assistant(HA)에서 ChatGPT로 음성 연결을 매끄럽게 만드는 데 어려움을 겪고 있음
      웨이크워드(wake word) 개념도 마음에 들지 않음. 전체 스택에 아직 개선할 부분이 많다고 느낌
    • 그리고 장난감에도 이런 시스템이 적용되면 재미있을 것 같음
  • 다양한 모델을 쉽게 비교할 수 있는 좋은 자료가 있는지 궁금함
    gpt-oss-20b와 gpt-oss-120b의 파라미터 수 차이는 알지만, 실제 성능 차이를 잘 모르겠음
    Gemini나 GPT 같은 대형 모델만 써봤는데, 내 하드웨어에서 어느 정도 작은 모델까지 유용하게 쓸 수 있을지 알고 싶음

  • “실시간” 성능이 어느 정도인지 궁금해서 찾아봤음
    Pi 5(16GB)에서 Q3_K_S-2.70bpw [KQ-2] 모델이 8.03 TPS를 기록하고, BF16 품질의 94.18% 를 유지한다고 함
    기사에서 다른 하드웨어 세부사항도 다루고 있음

    • 이런 핵심 수치만 추려서 보여주는 Hacker News 요약 페이지가 있으면 좋겠다고 생각함
  • 나도 Pi 5(16GB)에서 최신 llama.cpp로 실험해봤는데 세그멘테이션 폴트(segfault) 가 발생했음
    메모리 부족 오류 메시지가 뜨고, 약 10GB RAM을 사용하다가 종료됨
    -c 4096 옵션으로 컨텍스트 크기를 줄이니 로드가 성공했음

    • illamaik_llama.cpp4비트 양자화 모델, 혹은 Microsoft BitNet도 시도해볼 만함
      BitNet b1.58-2B-4T-gguf 같은 모델은 저사양 장치나 iGPU만 있는 사무용 PC에서도 비교 실험하기 좋을 듯함
    • 혹시 스왑 메모리를 추가했을 가능성도 있음
  • 정확도 측정 방식이 일반적인 perplexity와 다른지 궁금함
    BF16에서 2.8로 줄였는데 품질 손실이 5%밖에 안 된다는 게 의아함

  • GPT-OSS-20B는 11.2GB 정도라서, 16GB 메모리 장비에서도 품질 저하 없이 충분히 구동 가능함