# 1-bit Bonsai - 상업적으로 실용 가능한 최초의 1비트 LLM

> Clean Markdown view of GeekNews topic #28093. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28093](https://news.hada.io/topic?id=28093)
- GeekNews Markdown: [https://news.hada.io/topic/28093.md](https://news.hada.io/topic/28093.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-02T00:29:56+09:00
- Updated: 2026-04-02T00:29:56+09:00
- Original source: [prismml.com](https://prismml.com/)
- Points: 14
- Comments: 2

## Summary

Caltech에서 출발한 PrismML이 **진정한 엔드투엔드 1비트 LLM**을 공개했습니다. 임베딩부터 어텐션, MLP까지 예외 없이 전체를 1비트로 구성한 8B 모델인데, 크기가 **1.15GB**밖에 안 됩니다. 16비트 동급 모델 대비 약 14배 작으면서도 벤치마크에서는 경쟁력 있는 성능을 유지하고, iPhone에서도 **44 tok/s**로 돌아갑니다. 기존 저비트 모델들이 명령 수행이나 다단계 추론에서 품질이 급격히 떨어졌던 것과 비교하면 의미 있는 진전이고요. 온디바이스 AI가 "데모용"을 넘어 **실제 제품에 쓸 수 있는 수준**에 가까워지고 있다는 걸 보여주는 사례입니다.

## Topic Body

- Caltech 연구에서 출발한 AI 스타트업 PrismML이 **1-bit Bonsai 8B** 모델을 공개하며, 기존 16비트 동급 모델 대비 약 14배 작은 1.15GB 크기로 스마트폰·엣지 디바이스에서의 실용적 AI 추론을 실현  
- 전체 네트워크(임베딩, 어텐션, MLP, LM 헤드)를 예외 없이 1비트로 구성한 **진정한 엔드투엔드 1비트 설계**로, 기존 저비트 모델이 겪던 명령 수행·다단계 추론·툴 사용 품질 저하 문제를 극복  
- **인텔리전스 밀도(Intelligence Density)** 지표 기준으로 1.06/GB를 달성, 동급 파라미터 클래스에서 가장 가까운 경쟁 모델(Qwen3 8B, 0.10/GB) 대비 약 10.6배 우위  
- M4 Pro Mac에서 131 tok/s, RTX 4090에서 368 tok/s, iPhone 17 Pro Max에서 약 44 tok/s로 동작하며, **에너지 효율은 16비트 모델 대비 약 4~5배** 우수  
- 1-bit 전용 하드웨어가 설계될 경우 추가로 **한 자릿수 배율의 성능·효율 향상** 가능성이 열리며, 온디바이스 AI·로보틱스·보안 엔터프라이즈 등 새로운 배포 범주 확대  
  
---  
  
### PrismML과 1-bit Bonsai 등장 배경  
  
- 지난 10년간 AI 발전은 모델을 더 크게 만드는 방향(더 많은 파라미터, GPU, 전력, 메모리, 비용)으로 진행되어 왔음  
- 그 결과 가장 뛰어난 지능이 **대규모 클러스터와 전용 인프라** 안에 갇히는 구조적 제약이 생김  
- 실제로 AI가 필요한 공간은 데이터센터에 국한되지 않으며, 스마트폰·노트북·차량·로봇·보안 엔터프라이즈·엣지 디바이스 등 다양  
- PrismML은 Caltech 연구팀에서 출발했으며, Khosla Ventures, Cerberus, Google의 지원을 받아 설립  
- **지능 밀도(Intelligence Density)** — 모델 크기(GB) 단위당 제공 가능한 지능의 양 — 를 핵심 최적화 지표로 설정  
  
### 진정한 1비트 모델 설계  
  
- 1-bit Bonsai 8B는 임베딩, 어텐션 레이어, MLP 레이어, LM 헤드 전체를 1비트로 구현하며, **고정밀도 탈출구(escape hatch) 없이** 82억 파라미터 전체에 걸쳐 완전한 1비트 구조를 유지  
- 기존 저비트 모델은 명령 수행, 다단계 추론, 툴 사용 신뢰성에서 큰 성능 손실이 발생해 실제 제품 기반으로 사용하기 어려웠음  
- Bonsai는 **1비트 모델도 좁은 타협점이 아닌 프로덕션 수준의 완전한 시스템**이 될 수 있음을 증명  
  
### 인텔리전스 밀도(Intelligence Density) 측정  
  
- 인텔리전스 밀도는 벤치마크 전반의 **평균 오류율의 로그 음수 값을 모델 크기로 나눈 수치**로 정의  
- 이 지표는 단순 벤치마크 평균보다 현실적인 지능 수준을 반영: 이미 높은 정확도에서의 추가 개선에 더 높은 가치를 부여  
- **1-bit Bonsai 8B: 1.06/GB**, Qwen3 8B: 0.10/GB — 단순히 앞서는 수준이 아니라 다른 차원의 결과  
- 원시 벤치마크 평균에서도 1-bit Bonsai 8B는 주요 8B급 모델들과 경쟁력 있는 성능을 유지하면서, **메모리 풋프린트는 1.15GB**로 동급 대비 약 12~14배 작음  
  
### 크기와 속도  
  
- **1.15GB** 크기로 iPhone 17 Pro에서 구동 가능 — 기존 16비트 8B 모델은 어떤 iPhone에도 탑재 불가  
- 디바이스별 추론 속도:  
  - M4 Pro Mac: **131 tok/s**  
  - RTX 4090: **368 tok/s**  
  - iPhone 17 Pro Max: 약 **44 tok/s**  
- 50개의 티켓 요약·할당 작업을 시뮬레이션했을 때, **1-bit Bonsai 8B는 50개 모두 처리**, 동일 조건의 16비트 8B 모델은 6개만 처리  
- 장기 에이전트 워크로드에서 더 높은 처리량과 낮은 메모리 사용이 에이전트가 실질적으로 처리할 수 있는 작업량 자체를 확장  
  
### 에너지 효율  
  
- 1-bit Bonsai 8B는 16비트 풀정밀도 모델 대비 **약 4~5배 우수한 에너지 효율**을 달성  
  - M4 Pro: **0.074 mWh/tok**  
  - iPhone 17 Pro Max: **0.068 mWh/tok**  
- AI가 근본적인 인프라로 자리잡기 위해서는 에너지 효율의 획기적 개선이 반드시 필요  
  
### 1비트 전용 하드웨어의 잠재력  
  
- 현재 성능 향상은 1비트 모델의 **축소된 메모리 풋프린트**에서 주로 기인하며, 추론 시 1비트 가중치 구조를 완전히 활용하는 것은 아직 달성되지 않은 상태  
- MLP 같은 선형 레이어에서 1비트 가중치는 곱셈 연산을 덧셈으로 대체하는 것을 가능하게 함  
- **1비트 추론 전용 하드웨어**가 설계될 경우, 성능과 에너지 효율을 추가로 한 자릿수 배율만큼 향상 가능  
  
### Bonsai 4B 및 1.7B 모델  
  
- **1-bit Bonsai 4B**와 **1-bit Bonsai 1.7B** 두 소형 모델도 함께 출시  
- 20개의 주요 instruct 모델(1.2GB~16.4GB 범위)과 비교한 인텔리전스 vs 크기 산점도에서, **Bonsai 패밀리 전체가 기존 Pareto 프런티어를 크게 왼쪽으로 이동**시킴  
- 기존 Pareto 프런티어는 Qwen3 0.6B, 1.7B, 4B, 8B 및 Ministral3 3B로 구성되어 있었으나, Bonsai 패밀리가 새로운 프런티어를 정의  
  
### 집약된 지능이 가능케 하는 것  
  
- 모델이 온디바이스에서 구동될 정도로 작고 빠르고 효율적이 되면 AI 제품 설계 공간이 즉시 달라짐:  
  - **응답성 향상**: 온디바이스 추론으로 네트워크 지연 없이 동작  
  - **프라이버시 강화**: 민감 데이터가 디바이스 밖으로 나가지 않음  
  - **신뢰성 향상**: 지속적인 클라우드 접속 의존도 감소  
  - **경제성 확보**: 서버 측 배포가 비용 문제로 불가능했던 환경에서도 AI 활용 가능  
- 새롭게 열리는 카테고리: 지속적 온디바이스 에이전트, 실시간 로보틱스, 보안 엔터프라이즈 코파일럿, 오프라인 지능, 대역폭·전력·규정 제약 환경을 위한 AI 네이티브 제품  
  
### 플랫폼 지원 및 공개 방식  
  
- 1-bit Bonsai 8B는 **Apple 기기(Mac, iPhone, iPad)에서 MLX** 경유, **NVIDIA GPU에서 llama.cpp CUDA** 경유로 네이티브 실행 지원  
- 모델 가중치는 현재 **Apache 2.0 라이선스**로 공개  
- 훈련·평가·벤치마킹 프로세스의 전체 기술 세부사항은 공식 **whitepaper**에서 제공

## Comments



### Comment 54409

- Author: runableapp
- Created: 2026-04-02T09:35:23+09:00
- Points: 1

좋은 정보입니다.

### Comment 54394

- Author: neo
- Created: 2026-04-02T00:29:56+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47593422) 
- 1.125비트 프레이밍(1비트 가중치 + 128개 그룹당 공유 16비트 스케일)이 **기술적으로 정직한 수치**임을 강조함  
  ‘상업적으로 실현 가능하다’는 것이 추론 비용 기준인지, 파인튜닝 기반으로 가능한지를 구분해야 함  
  Microsoft의 BitNet 논문처럼 처음부터 1비트 목표로 학습된 모델이라면, 단순한 양자화 모델과는 완전히 다른 존재임  
  특히 범용 하드웨어에서의 **추론 효율성**이 INT4 양자화보다 훨씬 매력적으로 느껴짐  
  다만 벤치마크는 양자화된 대형 모델과 비교되어 있어, 실제 주장의 본질이 다소 묻혀 있음  
  다단계 추론이 필요한 작업에서도 성능이 유지되는지 보고 싶음  

- 1비트 + FP16 스케일(128비트당 1개) 구조가 이렇게 잘 작동한다는 게 흥미로움  
  Cursor를 통해 웹페이지 테스트를 생성해봤는데, **도구 사용 능력**이 꽤 인상적이었음  
  π 몬테카를로 시뮬레이션에서는 논리는 맞았지만 인터페이스 생성에 실패했고, 일부 수동 수정이 필요했음  
  [Pelican 그림 결과](https://x.com/pwnies/status/2039122871604441213)는 매우 추상적이었음  
  공식 데모가 없어 [로컬 llama.cpp 인스턴스](https://unfarmable-overaffirmatively-euclid.ngrok-free.dev)를 열어둠  
  - 링크 덕분에 직접 테스트해봤는데 **응답 속도**가 매우 빠름  
    R 스크립트, LaTeX 수식 생성 등 다양한 요청을 시도했으며, 특히 **Euler 공식**은 완벽히 생성됨  
    작은 1비트 모델임에도 지식 밀도가 높고 반응이 빠름  
  - 예술사 전공자로서 ‘자전거 탄 펠리컨’ 아이디어에 전적으로 찬성함  
  - ngrok 링크가 폭주로 막혀서 [Google Colab 버전](https://colab.research.google.com/drive/1EzyAaQ2nwDv_1X0jaC5...)을 공유함  
  - Prism의 llama.cpp 포크가 필요한지 궁금함  
  - 초기 ChatGPT처럼 대부분 맞지만 가끔 **헛소리**를 하는 느낌임  
    ‘생각 단계’를 추가하거나 검색 기반 보강을 하면 훨씬 유용해질 것 같음  

- 직접 만든 **SQL 디버깅 벤치마크**를 돌려봤는데 꽤 인상적이었음  
  25개 중 8개 통과, 0개 실패, 17개 오류로 Qwen3.5-4B와 Nanbeige4.1-3B 사이 수준임  
  전체 테스트가 200초 만에 끝났고, 속도 면에서는 **Granite 7B 4bit**보다 훨씬 효율적이었음  
  결과는 [SQL 벤치마크 사이트](https://sql-benchmark.nicklothian.com/#all-data)에서 확인 가능함  
  - 나도 @freakynit의 runpod를 사용했음  
    개인적으로 **Pomodoro 앱**을 만드는 테스트를 했는데, 완성도는 낮지만 특정 영역에서는 꽤 쓸만했음  
    글쓰기 능력도 의외로 괜찮고, **em-dash 사용이 적은** 점이 흥미로움  
    HTML 작성은 약하지만, 1비트 모델과 Ngram-embedding을 결합하면 새로운 가능성이 많을 것 같음  
    [직접 만든 프로토타입 코드](https://gist.github.com/SerJaimeLannister/e90e8a134e4163f205...)도 공유함  

- 최신 업데이트된 [Locally AI 앱](https://apps.apple.com/us/app/locally-ai-local-ai-chat/id674...)으로 iPhone에서도 실행 가능함  
  1.2GB 크기치고는 놀라운 성능을 보임  
  [펠리컨 SVG 결과](https://tools.simonwillison.net/svg-render#%3Csvg%20width%3D...)는 주석은 좋았지만 그림은 별로였음  
  - 작은 모델들이 **시간대 변환**에 매우 약하다는 걸 발견함  
    “대만 표준시 9:30am은 미국 태평양 시간으로 몇 시인가?”를 물었는데, 어떤 모델도 정답을 못 냄  
  - 펠리컨에 자전거를 요청했는지, 아니면 모델이 창의적으로 추가했는지 궁금함  

- 8GiB 모델을 RTX 3090에서 5시간 동안 공개 실행함  
  [서버 링크](https://ofo1j9j6qh20a8-80.proxy.runpod.net)와 실행 명령을 공유함  
  5개 병렬 요청, 약 13K 토큰 제한, VRAM 4GiB 사용  
  **190t/s** 속도로 출력되는 등 매우 빠른 성능을 보였음  
  - KV 캐시는 **정밀도 손실 없이** 유지하는 게 좋다고 조언함  
  - 모델과 대화하는 게 정말 즐거움  
    [대화 예시](https://ofo1j9j6qh20a8-80.proxy.runpod.net/#/chat/5554e479-0...)에서 ‘세차장까지 걸을지 운전할지’ 묻자 창의적인 답변을 줌  
  - 스팟 인스턴스 종료로 서버가 종료되었다고 업데이트함  
  - 속도에 감탄함  
  - [Pastebin 결과](https://pastebin.com/PmJmTLJN)도 공유하며, 약한 모델들은 이런 결과를 내지 못한다고 언급함  

- GPU가 없어 CPU로 실행했는데, 구형 노트북에서도 0.6t/s → AVX2 추가 후 **12t/s**까지 향상됨  
  꽤 괜찮은 성능이라 느낌  
  - AVX2 빌드에서도 느리거나 **의미 없는 출력**만 나왔다는 피드백이 있었음  
    `git checkout prism` 단계를 빼먹은 게 원인이었고, 수정 후 정상 작동함  
  - “not shabby”라는 표현은 과소평가라고 농담함  

- 대형 모델의 미래는 **float보다 비트 단위**로 갈 것이라 생각함  
  float 값 대부분이 좁은 범위에 몰려 있어 비효율적이며, 결국 비트 연산으로 구현됨  
  다만 GPU와 이론적 기반이 실수 연산에 맞춰져 있는 게 문제임  
  - 낮은 비트폭에서의 추론은 쉽지만, **훈련이 어렵고 불안정**함  
    float 형식이 유지되는 이유는 단순히 GPU 스택과 호환성이 좋기 때문임  
  - [이 논문](https://proceedings.neurips.cc/paper_files/paper/2024/file/7...)은 훈련까지 **이진수 기반**으로 수행함  
    ‘Boolean variation’이라는 개념을 도입해, 미분을 이진 형태로 정의하고 직접 역전파를 수행함  

- **스파이킹 뉴럴 네트워크**와의 유사성이 흥미로움  
  스파이크 여부로 1비트 통신을 하며, 아날로그 막전위를 사용함  
  5천 개의 Izhikevich 뉴런으로 사족보행 제어를 했는데 PPO보다 효율적이었음  
  1비트 효율성은 LLM을 넘어선 개념임  

- “-log error / model size” 비율이 약 1이면 **오류율이 40% 수준**이라는 뜻인지 궁금함  
  수학적으로는 error/model size = 1/e라는 계산을 덧붙임  

- Bonsai가 8B 모델을 1.15GB로 제공하는데, 27B나 35B 모델은 얼마나 커질지 궁금함  
  스케일링이 유지된다면 **100B 모델도 64GB RAM** 안에 들어갈 수 있을 것 같음  
  - 다만 훈련 비용이 문제임  
    아마도 전체 정밀도 모델만큼 비쌀 가능성이 높음, 그렇지 않았다면 이미 언급했을 것임
