Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신
(tinygrad.org)- tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로, 최소 연산 구조로 복잡한 모델을 구현
- 이를 기반으로 한 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, red·green·exa 세 가지 모델로 제공됨
- 상위 모델 green v2 blackwell은 4개의 RTX PRO 6000 GPU로 3086 TFLOPS 성능을 내며, $65,000에 즉시 배송 가능함
- 최상위 exabox는 약 1 EXAFLOP 성능을 목표로 2027년 출시 예정이며, 약 1천만 달러 가격대임
- 제작사인 tiny corp는 petaflop 상용화와 모두를 위한 AI 실현을 목표로 함
tinygrad 개요
- tinygrad는 단순성과 성능을 중시하는 신경망 프레임워크로, 빠르게 성장 중인 프로젝트임
- 복잡한 네트워크를 단 3가지 OpType으로 구성함: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨
- ReduceOps는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음
- MovementOps는 데이터를 복사 없이 이동시키는 가상 연산으로, ShapeTracker를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함
- CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함
tinybox 제품 라인업
- tinybox는 딥러닝용 고성능 컴퓨터로, red, green, exa 세 가지 모델로 구성됨
- 각 모델의 주요 사양은 다음과 같음
-
red v2
- GPU: 4x 9070XT
- FP16(FP32 acc) 성능: 778 TFLOPS
- GPU RAM: 64GB, 대역폭 2560 GB/s
- CPU: 32코어 AMD EPYC
- 시스템 RAM: 128GB, 대역폭 204.8 GB/s
- 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s
- 네트워킹: 2x 1GbE + OCP3.0
- 전원: 1600W
- 소음: 50dB 미만
- 가격: $12,000, 즉시 배송 가능
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- FP16(FP32 acc) 성능: 3086 TFLOPS
- GPU RAM: 384GB, 대역폭 7168 GB/s
- CPU: 32코어 AMD GENOA
- 시스템 RAM: 192GB, 대역폭 460.8 GB/s
- 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s
- 네트워킹: 2x 10GbE + OCP3.0
- 전원: 2x 1600W
- 소음: 65dB (10m 거리 기준)
- 가격: $65,000, 즉시 배송 가능
-
exabox
- GPU: 720x RDNA5 AT0 XL
- FP16(FP32 acc) 성능: 약 1 EXAFLOP
- GPU RAM: 25,920GB, 대역폭 1244 TB/s
- CPU: 120x 32코어 AMD GENOA
- 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s
- 디스크: 480TB RAID, 읽기 속도 7.1 TB/s
- 네트워킹: PCIe5 3.2 TB/s 확장 지원
- 전원: 600kW
- 크기: 20x8x8.5 ft, 무게 20,000 lbs
- 출시 예정: 2027년, 예상가 약 $10M
- 모든 모델은 Ubuntu 24.04 운영체제를 사용하며, 독립형 또는 랙 마운트형으로 설치 가능함
- 제품 및 재고 업데이트는 메일링 리스트를 통해 제공됨
-
FAQ
-
tinybox 개요
-
딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음
- MLPerf Training 4.0 벤치마크에서 10배 비싼 시스템과 비교 테스트됨
- 학습뿐 아니라 추론(inference) 도 수행 가능함
-
-
주문 및 배송
- 웹사이트에서 주문 가능하며, 결제 후 1주 이내 배송
- 샌디에이고 현장 수령 또는 전 세계 배송 지원
-
커스터마이징 및 결제
-
가격과 품질 유지를 위해 커스터마이징 불가
- 결제는 전신 송금(wire transfer) 만 가능
- W-9 양식은 다운로드 링크에서 제공됨
-
-
tinygrad 사용처
- openpilot에서 Snapdragon 845 GPU 기반 주행 모델 실행에 사용됨
- Qualcomm SNPE를 대체하며, 더 빠르고 ONNX 로딩, 학습 지원, attention 기능을 제공함
-
기능 및 성능
- 추론 전용이 아니며, autodiff 기반의 forward/backward 패스 모두 지원
- PyTorch와 유사한 API를 제공하지만 구조는 더 단순함
- 알파 버전으로 안정성은 낮으나 최근에는 비교적 안정적임
- PyTorch보다 2배 빠른 논문 재현이 가능해질 때 알파 단계를 종료할 예정임
-
속도 향상 요인
- 각 연산마다 맞춤형 커널 컴파일로 형태별 최적화
- lazy tensor 구조로 연산을 적극적으로 fusion
- 간결한 백엔드로 커널 최적화 시 전체 성능 향상
-
개발 및 커뮤니티
- 개발은 GitHub와 Discord에서 진행 중
- tinygrad 기여(PR) 는 채용 및 투자 참여의 주요 경로로 간주됨
- tiny corp의 목표는 petaflop 상용화와 모두를 위한 AI 실현임
Hacker News 의견들
-
이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
디자인과 글의 톤이 매우 인간적임
그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움- AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함 - “Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 AI 생성 코드에 대한 정책이 없는 점이 의아했음
아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함 - 6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음
- 사실 미국의 240V 회로는 120V 두 개를 묶은 것이라, 재배선은 어렵지 않음
- AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
-
기본 모델이 1만2천 달러라니 너무 비쌈
나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌- M3 Max의 tflops 성능은 12k 박스와 비교 불가할 정도로 작음
- 이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임
그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
-
red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
게다가 왜 12U인지 모르겠음. 내 리그는 4U임
green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨- 성능은 괜찮지만 미친 수준은 아님
나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임 - 12U인 이유는 아마 단일 케이스 SKU를 쓰기 때문일 것임
“가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함 - 솔직히 RTX 8000 두 개가 red v2보다 ROI가 더 좋을 것 같음
나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨 - 그게 Blackwell 6000보다 싸게 들었는지 궁금함
4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음 - KV를 시스템 RAM이나 스토리지로 오프로딩하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임
일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
- 성능은 괜찮지만 미친 수준은 아님
-
exabox가 흥미로움
누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
아마 가성비를 중시하는 ML 스타트업을 노린 듯함
실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
NV의 인터커넥트 품질엔 못 미치겠지만
누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까- 대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임 - “exabox가 흥미롭다”는 말에 대한 농담으로 “Crysis 돌릴 수 있냐”는 반응이 있었음
- 대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
-
이게 새로운 크립토 채굴기 같은 건가 싶음
예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임- 비슷하긴 한데, 보상 블록이 없다는 점이 다름
-
Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음
-
Decoy effect 개념을 떠올리게 함
-
이 장비는 냉각을 어떻게 처리하는지 궁금함
-
tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임 -
왜 6 GPU 구성을 중단했는지 모르겠음
4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능함
6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
그만큼 가성비는 더 좋았다고 생각함