# Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

> Clean Markdown view of GeekNews topic #27727. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27727](https://news.hada.io/topic?id=27727)
- GeekNews Markdown: [https://news.hada.io/topic/27727.md](https://news.hada.io/topic/27727.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-22T10:37:55+09:00
- Updated: 2026-03-22T10:37:55+09:00
- Original source: [tinygrad.org](https://tinygrad.org/#tinybox)
- Points: 6
- Comments: 1

## Summary

*tinygrad** 기반의 **tinybox**는 거대한 클라우드 대신 손안의 데이터센터를 지향하는 오프라인 AI 머신입니다. 4개의 GPU로 3000TFLOPS급 성능을 내는 모델부터 2027년 출시 예정인 **1 EXAFLOP급 exabox**까지 라인업을 갖추며, 학습과 추론을 모두 로컬에서 처리할 수 있게 합니다. 개발자 입장에서는 클라우드 의존 없이 대형 모델을 직접 실험하거나 사내 인프라로 **자체 AI 워크로드를 운영**할 수 있는 현실적인 대안으로 주목받고 있습니다.

## Topic Body

- **tinygrad**는 단순성과 성능을 결합한 **신경망 프레임워크**로, 최소 연산 구조로 복잡한 모델을 구현  
- 이를 기반으로 한 **tinybox**는 딥러닝 학습과 추론을 위한 **고성능 오프라인 AI 컴퓨터**로, red·green·exa 세 가지 모델로 제공됨  
- 상위 모델 **green v2 blackwell**은 4개의 RTX PRO 6000 GPU로 **3086 TFLOPS** 성능을 내며, **$65,000**에 즉시 배송 가능함  
- 최상위 **exabox**는 약 **1 EXAFLOP** 성능을 목표로 2027년 출시 예정이며, **약 1천만 달러** 가격대임  
- 제작사인 tiny corp는 **petaflop 상용화와 모두를 위한 AI 실현**을 목표로 함  
  
---  
  
### tinygrad 개요  
- **tinygrad**는 단순성과 성능을 중시하는 **신경망 프레임워크**로, 빠르게 성장 중인 프로젝트임  
- 복잡한 네트워크를 단 3가지 **OpType**으로 구성함: **ElementwiseOps**, **ReduceOps**, **MovementOps**  
  - **ElementwiseOps**는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨  
  - **ReduceOps**는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음  
  - **MovementOps**는 데이터를 복사 없이 이동시키는 가상 연산으로, **ShapeTracker**를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함  
- CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함  
  
### tinybox 제품 라인업  
- **tinybox**는 딥러닝용 고성능 컴퓨터로, **red**, **green**, **exa** 세 가지 모델로 구성됨  
- 각 모델의 주요 사양은 다음과 같음  
  - ### red v2  
    - GPU: 4x 9070XT  
    - FP16(FP32 acc) 성능: **778 TFLOPS**  
    - GPU RAM: 64GB, 대역폭 2560 GB/s  
    - CPU: 32코어 AMD EPYC  
    - 시스템 RAM: 128GB, 대역폭 204.8 GB/s  
    - 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s  
    - 네트워킹: 2x 1GbE + OCP3.0  
    - 전원: 1600W  
    - 소음: 50dB 미만  
    - 가격: **$12,000**, 즉시 배송 가능  
  - ### green v2 blackwell  
    - GPU: 4x RTX PRO 6000 Blackwell  
    - FP16(FP32 acc) 성능: **3086 TFLOPS**  
    - GPU RAM: 384GB, 대역폭 7168 GB/s  
    - CPU: 32코어 AMD GENOA  
    - 시스템 RAM: 192GB, 대역폭 460.8 GB/s  
    - 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s  
    - 네트워킹: 2x 10GbE + OCP3.0  
    - 전원: 2x 1600W  
    - 소음: 65dB (10m 거리 기준)  
    - 가격: **$65,000**, 즉시 배송 가능  
  - ### exabox  
    - GPU: 720x RDNA5 AT0 XL  
    - FP16(FP32 acc) 성능: **약 1 EXAFLOP**  
    - GPU RAM: 25,920GB, 대역폭 1244 TB/s  
    - CPU: 120x 32코어 AMD GENOA  
    - 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s  
    - 디스크: 480TB RAID, 읽기 속도 7.1 TB/s  
    - 네트워킹: PCIe5 3.2 TB/s 확장 지원  
    - 전원: 600kW  
    - 크기: 20x8x8.5 ft, 무게 20,000 lbs  
    - 출시 예정: **2027년**, 예상가 **약 $10M**  
    - 모든 모델은 **Ubuntu 24.04** 운영체제를 사용하며, **독립형 또는 랙 마운트형**으로 설치 가능함  
    - 제품 및 재고 업데이트는 **메일링 리스트**를 통해 제공됨  
  
### FAQ  
- ## tinybox 개요  
  - ### 딥러닝용 고성능 컴퓨터**로,** 가격 대비 성능이 매우 높음  
    - **MLPerf Training 4.0** 벤치마크에서 10배 비싼 시스템과 비교 테스트됨  
    - 학습뿐 아니라 **추론(inference)** 도 수행 가능함  
- ## 주문 및 배송  
  - 웹사이트에서 주문 가능하며, **결제 후 1주 이내 배송**  
  - **샌디에이고 현장 수령** 또는 **전 세계 배송** 지원  
- ## 커스터마이징 및 결제  
  - ### 가격과 품질 유지를 위해 커스터마이징 불가  
    - **결제는 전신 송금(wire transfer)** 만 가능  
    - **W-9 양식**은 [다운로드 링크](https://tinygrad.org/assets/fw9.pdf)에서 제공됨  
- ## tinygrad 사용처  
  - **openpilot**에서 **Snapdragon 845 GPU** 기반 주행 모델 실행에 사용됨  
  - **Qualcomm SNPE**를 대체하며, 더 빠르고 **ONNX 로딩**, **학습 지원**, **attention 기능**을 제공함  
- ## 기능 및 성능  
  - **추론 전용이 아니며**, **autodiff 기반의 forward/backward 패스** 모두 지원  
  - **PyTorch와 유사한 API**를 제공하지만 구조는 더 단순함  
  - **알파 버전**으로 안정성은 낮으나 최근에는 비교적 안정적임  
  - **PyTorch보다 2배 빠른 논문 재현**이 가능해질 때 알파 단계를 종료할 예정임  
  - **속도 향상 요인**  
    - 각 연산마다 **맞춤형 커널 컴파일**로 형태별 최적화  
    - **lazy tensor** 구조로 연산을 적극적으로 **fusion**  
    - **간결한 백엔드**로 커널 최적화 시 전체 성능 향상  
- ## 개발 및 커뮤니티  
  - 개발은 **GitHub**와 **Discord**에서 진행 중  
  - **tinygrad 기여(PR)** 는 채용 및 투자 참여의 주요 경로로 간주됨  
  - **tiny corp의 목표**는 **petaflop 상용화**와 **모두를 위한 AI 실현**임

## Comments


### Comment 53535

- Author: neo
- Created: 2026-03-22T10:37:55+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47470773) 
- 이 웹사이트가 **AI가 아닌 사람 손으로 만든 듯한 느낌**이 강해서 아이러니함을 느꼈음  
  디자인과 글의 톤이 매우 인간적임  
  그래도 아이디어는 훌륭하고, 이런 **로컬 학습형 모델**이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함  
  다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움  
  - AI 관련 글 중 진짜로 존중받는 글들은 대부분 **AI가 쓴 흔적이 거의 없음**  
    업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함  
  - “Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 **AI 생성 코드에 대한 정책이 없는 점**이 의아했음  
    아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함  
  - 6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음  
  - 사실 미국의 240V 회로는 **120V 두 개를 묶은 것**이라, 재배선은 어렵지 않음  

- 기본 모델이 1만2천 달러라니 너무 비쌈  
  나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림  
  완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌  
  - M3 Max의 **tflops 성능은 12k 박스와 비교 불가**할 정도로 작음  
  - 이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임  
    그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음  

- red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음  
  나는 **dual A100 AI homelab**을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음  
  120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐  
  KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남  
  현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음  
  게다가 왜 12U인지 모르겠음. 내 리그는 4U임  
  green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함  
  존재 자체는 반갑지만, 솔직히 **구성 비율이 이해 안 됨**  
  - 성능은 괜찮지만 미친 수준은 아님  
    나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴  
    64G VRAM/128G RAM 구성은 비효율적임. **MoE 모델**도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임  
  - 12U인 이유는 아마 **단일 케이스 SKU를 쓰기 때문**일 것임  
    “가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함  
  - 솔직히 RTX 8000 두 개가 red v2보다 **ROI가 더 좋을 것** 같음  
    나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함  
    green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨  
  - 그게 Blackwell 6000보다 싸게 들었는지 궁금함  
    4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음  
  - KV를 시스템 RAM이나 스토리지로 **오프로딩**하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임  
    일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 **LRU 정책**을 지원해서 오버헤드가 감당 가능함  

- exabox가 흥미로움  
  누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 **하이퍼스케일 시장에서 경쟁**하려는 게 상상도 안 됨  
  아마 가성비를 중시하는 ML 스타트업을 노린 듯함  
  실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임  
  NV의 인터커넥트 품질엔 못 미치겠지만  
  누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까  
  - 대기업 인프라는 5년 이상 된 경우가 많아서, **업그레이드 비용이 너무 커서** 쉽게 바꾸지 못함  
    그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임  
  - “exabox가 흥미롭다”는 말에 대한 농담으로 “**Crysis 돌릴 수 있냐**”는 반응이 있었음  

- 이게 새로운 **크립토 채굴기** 같은 건가 싶음  
  예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임  
  - 비슷하긴 한데, **보상 블록이 없다는 점**이 다름  

- Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 **명시적 성능 보장형 제품**을 더 원할 것 같음  

- [Decoy effect](https://en.wikipedia.org/wiki/Decoy_effect) 개념을 떠올리게 함  

- 이 장비는 **냉각을 어떻게 처리하는지** 궁금함  

- tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해  
  pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함  
  대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임  
  만약 **커스텀 커널**을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임  

- 왜 6 GPU 구성을 중단했는지 모르겠음  
  4 GPU(9070, RTX6000)는 2슬롯 디자인이라 **일반 메인보드로도 구축 가능**함  
  6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만  
  그만큼 **가성비는 더 좋았다고 생각함**