1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

(prismml.com)

14P by GN⁺ 2달전 | ★ favorite | 댓글 2개

Caltech 연구에서 출발한 AI 스타트업 PrismML이 1-bit Bonsai 8B 모델을 공개하며, 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서의 실용적 AI 추론을 실현
전체 네트워크(임베딩, 어텐션, MLP, LM 헤드)를 예외 없이 1비트로 구성한 진정한 엔드투엔드 1비트 설계로, 기존 저비트 모델이 겪던 명령 수행·다단계 추론·툴 사용 품질 저하 문제를 극복
인텔리전스 밀도(Intelligence Density) 지표 기준으로 1.06/GB를 달성, 동급 파라미터 클래스에서 가장 가까운 경쟁 모델(Qwen3 8B, 0.10/GB) 대비 약 10.6배 우위
M4 Pro Mac에서 131 tok/s, RTX 4090에서 368 tok/s, iPhone 17 Pro Max에서 약 44 tok/s로 동작하며, 에너지 효율은 16비트 모델 대비 약 4~5배 우수
1-bit 전용 하드웨어가 설계될 경우 추가로 한 자릿수 배율의 성능·효율 향상 가능성이 열리며, 온디바이스 AI·로보틱스·보안 엔터프라이즈 등 새로운 배포 범주 확대

PrismML과 1-bit Bonsai 등장 배경

지난 10년간 AI 발전은 모델을 더 크게 만드는 방향(더 많은 파라미터, GPU, 전력, 메모리, 비용)으로 진행되어 왔음
그 결과 가장 뛰어난 지능이 대규모 클러스터와 전용 인프라 안에 갇히는 구조적 제약이 생김
실제로 AI가 필요한 공간은 데이터센터에 국한되지 않으며, 스마트폰·노트북·차량·로봇·보안 엔터프라이즈·엣지 디바이스 등 다양
PrismML은 Caltech 연구팀에서 출발했으며, Khosla Ventures, Cerberus, Google의 지원을 받아 설립
지능 밀도(Intelligence Density) — 모델 크기(GB) 단위당 제공 가능한 지능의 양 — 를 핵심 최적화 지표로 설정

진정한 1비트 모델 설계

1-bit Bonsai 8B는 임베딩, 어텐션 레이어, MLP 레이어, LM 헤드 전체를 1비트로 구현하며, 고정밀도 탈출구(escape hatch) 없이 82억 파라미터 전체에 걸쳐 완전한 1비트 구조를 유지
기존 저비트 모델은 명령 수행, 다단계 추론, 툴 사용 신뢰성에서 큰 성능 손실이 발생해 실제 제품 기반으로 사용하기 어려웠음
Bonsai는 1비트 모델도 좁은 타협점이 아닌 프로덕션 수준의 완전한 시스템이 될 수 있음을 증명

인텔리전스 밀도(Intelligence Density) 측정

인텔리전스 밀도는 벤치마크 전반의 평균 오류율의 로그 음수 값을 모델 크기로 나눈 수치로 정의
이 지표는 단순 벤치마크 평균보다 현실적인 지능 수준을 반영: 이미 높은 정확도에서의 추가 개선에 더 높은 가치를 부여
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — 단순히 앞서는 수준이 아니라 다른 차원의 결과
원시 벤치마크 평균에서도 1-bit Bonsai 8B는 주요 8B급 모델들과 경쟁력 있는 성능을 유지하면서, 메모리 풋프린트는 1.15GB로 동급 대비 약 12~14배 작음

크기와 속도

1.15GB 크기로 iPhone 17 Pro에서 구동 가능 — 기존 16비트 8B 모델은 어떤 iPhone에도 탑재 불가
디바이스별 추론 속도:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: 약 44 tok/s
50개의 티켓 요약·할당 작업을 시뮬레이션했을 때, 1-bit Bonsai 8B는 50개 모두 처리, 동일 조건의 16비트 8B 모델은 6개만 처리
장기 에이전트 워크로드에서 더 높은 처리량과 낮은 메모리 사용이 에이전트가 실질적으로 처리할 수 있는 작업량 자체를 확장

에너지 효율

1-bit Bonsai 8B는 16비트 풀정밀도 모델 대비 약 4~5배 우수한 에너지 효율을 달성
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
AI가 근본적인 인프라로 자리잡기 위해서는 에너지 효율의 획기적 개선이 반드시 필요

1비트 전용 하드웨어의 잠재력

현재 성능 향상은 1비트 모델의 축소된 메모리 풋프린트에서 주로 기인하며, 추론 시 1비트 가중치 구조를 완전히 활용하는 것은 아직 달성되지 않은 상태
MLP 같은 선형 레이어에서 1비트 가중치는 곱셈 연산을 덧셈으로 대체하는 것을 가능하게 함
1비트 추론 전용 하드웨어가 설계될 경우, 성능과 에너지 효율을 추가로 한 자릿수 배율만큼 향상 가능

Bonsai 4B 및 1.7B 모델

1-bit Bonsai 4B와 1-bit Bonsai 1.7B 두 소형 모델도 함께 출시
20개의 주요 instruct 모델(1.2GB~16.4GB 범위)과 비교한 인텔리전스 vs 크기 산점도에서, Bonsai 패밀리 전체가 기존 Pareto 프런티어를 크게 왼쪽으로 이동시킴
기존 Pareto 프런티어는 Qwen3 0.6B, 1.7B, 4B, 8B 및 Ministral3 3B로 구성되어 있었으나, Bonsai 패밀리가 새로운 프런티어를 정의

집약된 지능이 가능케 하는 것

모델이 온디바이스에서 구동될 정도로 작고 빠르고 효율적이 되면 AI 제품 설계 공간이 즉시 달라짐:
- 응답성 향상: 온디바이스 추론으로 네트워크 지연 없이 동작
- 프라이버시 강화: 민감 데이터가 디바이스 밖으로 나가지 않음
- 신뢰성 향상: 지속적인 클라우드 접속 의존도 감소
- 경제성 확보: 서버 측 배포가 비용 문제로 불가능했던 환경에서도 AI 활용 가능
새롭게 열리는 카테고리: 지속적 온디바이스 에이전트, 실시간 로보틱스, 보안 엔터프라이즈 코파일럿, 오프라인 지능, 대역폭·전력·규정 제약 환경을 위한 AI 네이티브 제품

플랫폼 지원 및 공개 방식

1-bit Bonsai 8B는 Apple 기기(Mac, iPhone, iPad)에서 MLX 경유, NVIDIA GPU에서 llama.cpp CUDA 경유로 네이티브 실행 지원
모델 가중치는 현재 Apache 2.0 라이선스로 공개
훈련·평가·벤치마킹 프로세스의 전체 기술 세부사항은 공식 whitepaper에서 제공

좋은 정보입니다.

GN⁺ 2달전 [-]

Hacker News 의견들

1.125비트 프레이밍(1비트 가중치 + 128개 그룹당 공유 16비트 스케일)이 기술적으로 정직한 수치임을 강조함
‘상업적으로 실현 가능하다’는 것이 추론 비용 기준인지, 파인튜닝 기반으로 가능한지를 구분해야 함
Microsoft의 BitNet 논문처럼 처음부터 1비트 목표로 학습된 모델이라면, 단순한 양자화 모델과는 완전히 다른 존재임
특히 범용 하드웨어에서의 추론 효율성이 INT4 양자화보다 훨씬 매력적으로 느껴짐
다만 벤치마크는 양자화된 대형 모델과 비교되어 있어, 실제 주장의 본질이 다소 묻혀 있음
다단계 추론이 필요한 작업에서도 성능이 유지되는지 보고 싶음
1비트 + FP16 스케일(128비트당 1개) 구조가 이렇게 잘 작동한다는 게 흥미로움
Cursor를 통해 웹페이지 테스트를 생성해봤는데, 도구 사용 능력이 꽤 인상적이었음
π 몬테카를로 시뮬레이션에서는 논리는 맞았지만 인터페이스 생성에 실패했고, 일부 수동 수정이 필요했음
Pelican 그림 결과는 매우 추상적이었음
공식 데모가 없어 로컬 llama.cpp 인스턴스를 열어둠
- 링크 덕분에 직접 테스트해봤는데 응답 속도가 매우 빠름
  R 스크립트, LaTeX 수식 생성 등 다양한 요청을 시도했으며, 특히 Euler 공식은 완벽히 생성됨
  작은 1비트 모델임에도 지식 밀도가 높고 반응이 빠름
- 예술사 전공자로서 ‘자전거 탄 펠리컨’ 아이디어에 전적으로 찬성함
- ngrok 링크가 폭주로 막혀서 Google Colab 버전을 공유함
- Prism의 llama.cpp 포크가 필요한지 궁금함
- 초기 ChatGPT처럼 대부분 맞지만 가끔 헛소리를 하는 느낌임
  ‘생각 단계’를 추가하거나 검색 기반 보강을 하면 훨씬 유용해질 것 같음
직접 만든 SQL 디버깅 벤치마크를 돌려봤는데 꽤 인상적이었음
25개 중 8개 통과, 0개 실패, 17개 오류로 Qwen3.5-4B와 Nanbeige4.1-3B 사이 수준임
전체 테스트가 200초 만에 끝났고, 속도 면에서는 Granite 7B 4bit보다 훨씬 효율적이었음
결과는 SQL 벤치마크 사이트에서 확인 가능함
- 나도 @freakynit의 runpod를 사용했음
  개인적으로 Pomodoro 앱을 만드는 테스트를 했는데, 완성도는 낮지만 특정 영역에서는 꽤 쓸만했음
  글쓰기 능력도 의외로 괜찮고, em-dash 사용이 적은 점이 흥미로움
  HTML 작성은 약하지만, 1비트 모델과 Ngram-embedding을 결합하면 새로운 가능성이 많을 것 같음
  직접 만든 프로토타입 코드도 공유함
최신 업데이트된 Locally AI 앱으로 iPhone에서도 실행 가능함
1.2GB 크기치고는 놀라운 성능을 보임
펠리컨 SVG 결과는 주석은 좋았지만 그림은 별로였음
- 작은 모델들이 시간대 변환에 매우 약하다는 걸 발견함
  “대만 표준시 9:30am은 미국 태평양 시간으로 몇 시인가?”를 물었는데, 어떤 모델도 정답을 못 냄
- 펠리컨에 자전거를 요청했는지, 아니면 모델이 창의적으로 추가했는지 궁금함
8GiB 모델을 RTX 3090에서 5시간 동안 공개 실행함
서버 링크와 실행 명령을 공유함
5개 병렬 요청, 약 13K 토큰 제한, VRAM 4GiB 사용
190t/s 속도로 출력되는 등 매우 빠른 성능을 보였음
- KV 캐시는 정밀도 손실 없이 유지하는 게 좋다고 조언함
- 모델과 대화하는 게 정말 즐거움
  대화 예시에서 ‘세차장까지 걸을지 운전할지’ 묻자 창의적인 답변을 줌
- 스팟 인스턴스 종료로 서버가 종료되었다고 업데이트함
- 속도에 감탄함
- Pastebin 결과도 공유하며, 약한 모델들은 이런 결과를 내지 못한다고 언급함
GPU가 없어 CPU로 실행했는데, 구형 노트북에서도 0.6t/s → AVX2 추가 후 12t/s까지 향상됨
꽤 괜찮은 성능이라 느낌
- AVX2 빌드에서도 느리거나 의미 없는 출력만 나왔다는 피드백이 있었음
  git checkout prism 단계를 빼먹은 게 원인이었고, 수정 후 정상 작동함
- “not shabby”라는 표현은 과소평가라고 농담함
대형 모델의 미래는 float보다 비트 단위로 갈 것이라 생각함
float 값 대부분이 좁은 범위에 몰려 있어 비효율적이며, 결국 비트 연산으로 구현됨
다만 GPU와 이론적 기반이 실수 연산에 맞춰져 있는 게 문제임
- 낮은 비트폭에서의 추론은 쉽지만, 훈련이 어렵고 불안정함
  float 형식이 유지되는 이유는 단순히 GPU 스택과 호환성이 좋기 때문임
- 이 논문은 훈련까지 이진수 기반으로 수행함
  ‘Boolean variation’이라는 개념을 도입해, 미분을 이진 형태로 정의하고 직접 역전파를 수행함
스파이킹 뉴럴 네트워크와의 유사성이 흥미로움
스파이크 여부로 1비트 통신을 하며, 아날로그 막전위를 사용함
5천 개의 Izhikevich 뉴런으로 사족보행 제어를 했는데 PPO보다 효율적이었음
1비트 효율성은 LLM을 넘어선 개념임
“-log error / model size” 비율이 약 1이면 오류율이 40% 수준이라는 뜻인지 궁금함
수학적으로는 error/model size = 1/e라는 계산을 덧붙임
Bonsai가 8B 모델을 1.15GB로 제공하는데, 27B나 35B 모델은 얼마나 커질지 궁금함
스케일링이 유지된다면 100B 모델도 64GB RAM 안에 들어갈 수 있을 것 같음
- 다만 훈련 비용이 문제임
  아마도 전체 정밀도 모델만큼 비쌀 가능성이 높음, 그렇지 않았다면 이미 언급했을 것임

답변달기

1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

PrismML과 1-bit Bonsai 등장 배경

진정한 1비트 모델 설계

인텔리전스 밀도(Intelligence Density) 측정

크기와 속도

에너지 효율

1비트 전용 하드웨어의 잠재력

Bonsai 4B 및 1.7B 모델

집약된 지능이 가능케 하는 것

플랫폼 지원 및 공개 방식

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들