Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

(tinygrad.org)

6P by GN⁺ 3달전 | ★ favorite | 댓글 1개

tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로, 최소 연산 구조로 복잡한 모델을 구현
이를 기반으로 한 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, red·green·exa 세 가지 모델로 제공됨
상위 모델 green v2 blackwell은 4개의 RTX PRO 6000 GPU로 3086 TFLOPS 성능을 내며, $65,000에 즉시 배송 가능함
최상위 exabox는 약 1 EXAFLOP 성능을 목표로 2027년 출시 예정이며, 약 1천만 달러 가격대임
제작사인 tiny corp는 petaflop 상용화와 모두를 위한 AI 실현을 목표로 함

tinygrad 개요

tinygrad는 단순성과 성능을 중시하는 신경망 프레임워크로, 빠르게 성장 중인 프로젝트임
복잡한 네트워크를 단 3가지 OpType으로 구성함: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨
- ReduceOps는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음
- MovementOps는 데이터를 복사 없이 이동시키는 가상 연산으로, ShapeTracker를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함
CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함

tinybox 제품 라인업

tinybox는 딥러닝용 고성능 컴퓨터로, red, green, exa 세 가지 모델로 구성됨
각 모델의 주요 사양은 다음과 같음
- red v2
  - GPU: 4x 9070XT
  - FP16(FP32 acc) 성능: 778 TFLOPS
  - GPU RAM: 64GB, 대역폭 2560 GB/s
  - CPU: 32코어 AMD EPYC
  - 시스템 RAM: 128GB, 대역폭 204.8 GB/s
  - 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s
  - 네트워킹: 2x 1GbE + OCP3.0
  - 전원: 1600W
  - 소음: 50dB 미만
  - 가격: $12,000, 즉시 배송 가능
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - FP16(FP32 acc) 성능: 3086 TFLOPS
  - GPU RAM: 384GB, 대역폭 7168 GB/s
  - CPU: 32코어 AMD GENOA
  - 시스템 RAM: 192GB, 대역폭 460.8 GB/s
  - 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s
  - 네트워킹: 2x 10GbE + OCP3.0
  - 전원: 2x 1600W
  - 소음: 65dB (10m 거리 기준)
  - 가격: $65,000, 즉시 배송 가능
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - FP16(FP32 acc) 성능: 약 1 EXAFLOP
  - GPU RAM: 25,920GB, 대역폭 1244 TB/s
  - CPU: 120x 32코어 AMD GENOA
  - 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s
  - 디스크: 480TB RAID, 읽기 속도 7.1 TB/s
  - 네트워킹: PCIe5 3.2 TB/s 확장 지원
  - 전원: 600kW
  - 크기: 20x8x8.5 ft, 무게 20,000 lbs
  - 출시 예정: 2027년, 예상가 약 $10M
  - 모든 모델은 Ubuntu 24.04 운영체제를 사용하며, 독립형 또는 랙 마운트형으로 설치 가능함
  - 제품 및 재고 업데이트는 메일링 리스트를 통해 제공됨

FAQ

tinybox 개요
- 딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음
  - MLPerf Training 4.0 벤치마크에서 10배 비싼 시스템과 비교 테스트됨
  - 학습뿐 아니라 추론(inference) 도 수행 가능함
주문 및 배송
- 웹사이트에서 주문 가능하며, 결제 후 1주 이내 배송
- 샌디에이고 현장 수령 또는 전 세계 배송 지원
커스터마이징 및 결제
- 가격과 품질 유지를 위해 커스터마이징 불가
  - 결제는 전신 송금(wire transfer) 만 가능
  - W-9 양식은 다운로드 링크에서 제공됨
tinygrad 사용처
- openpilot에서 Snapdragon 845 GPU 기반 주행 모델 실행에 사용됨
- Qualcomm SNPE를 대체하며, 더 빠르고 ONNX 로딩, 학습 지원, attention 기능을 제공함
기능 및 성능
- 추론 전용이 아니며, autodiff 기반의 forward/backward 패스 모두 지원
- PyTorch와 유사한 API를 제공하지만 구조는 더 단순함
- 알파 버전으로 안정성은 낮으나 최근에는 비교적 안정적임
- PyTorch보다 2배 빠른 논문 재현이 가능해질 때 알파 단계를 종료할 예정임
- 속도 향상 요인
  - 각 연산마다 맞춤형 커널 컴파일로 형태별 최적화
  - lazy tensor 구조로 연산을 적극적으로 fusion
  - 간결한 백엔드로 커널 최적화 시 전체 성능 향상
개발 및 커뮤니티
- 개발은 GitHub와 Discord에서 진행 중
- tinygrad 기여(PR) 는 채용 및 투자 참여의 주요 경로로 간주됨
- tiny corp의 목표는 petaflop 상용화와 모두를 위한 AI 실현임

GN⁺ 3달전 [-]

Hacker News 의견들

이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
디자인과 글의 톤이 매우 인간적임
그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움
- AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
  업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함
- “Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 AI 생성 코드에 대한 정책이 없는 점이 의아했음
  아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함
- 6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음
- 사실 미국의 240V 회로는 120V 두 개를 묶은 것이라, 재배선은 어렵지 않음
기본 모델이 1만2천 달러라니 너무 비쌈
나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌
- M3 Max의 tflops 성능은 12k 박스와 비교 불가할 정도로 작음
- 이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임
  그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
게다가 왜 12U인지 모르겠음. 내 리그는 4U임
green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨
- 성능은 괜찮지만 미친 수준은 아님
  나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
  64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임
- 12U인 이유는 아마 단일 케이스 SKU를 쓰기 때문일 것임
  “가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함
- 솔직히 RTX 8000 두 개가 red v2보다 ROI가 더 좋을 것 같음
  나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
  green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨
- 그게 Blackwell 6000보다 싸게 들었는지 궁금함
  4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음
- KV를 시스템 RAM이나 스토리지로 오프로딩하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임
  일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
exabox가 흥미로움
누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
아마 가성비를 중시하는 ML 스타트업을 노린 듯함
실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
NV의 인터커넥트 품질엔 못 미치겠지만
누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까
- 대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
  그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임
- “exabox가 흥미롭다”는 말에 대한 농담으로 “Crysis 돌릴 수 있냐”는 반응이 있었음
이게 새로운 크립토 채굴기 같은 건가 싶음
예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임
- 비슷하긴 한데, 보상 블록이 없다는 점이 다름
Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음
Decoy effect 개념을 떠올리게 함
이 장비는 냉각을 어떻게 처리하는지 궁금함
tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임
왜 6 GPU 구성을 중단했는지 모르겠음
4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능함
6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
그만큼 가성비는 더 좋았다고 생각함

답변달기

Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

tinygrad 개요

tinybox 제품 라인업

red v2

green v2 blackwell

exabox

FAQ

tinybox 개요

딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음

주문 및 배송

커스터마이징 및 결제

가격과 품질 유지를 위해 커스터마이징 불가

tinygrad 사용처

기능 및 성능

개발 및 커뮤니티

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들