2P by GN⁺ 5시간전 | ★ favorite | 댓글 1개
  • tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로, 최소 연산 구조로 복잡한 모델을 구현
  • 이를 기반으로 한 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, red·green·exa 세 가지 모델로 제공됨
  • 상위 모델 green v2 blackwell은 4개의 RTX PRO 6000 GPU로 3086 TFLOPS 성능을 내며, $65,000에 즉시 배송 가능함
  • 최상위 exabox는 약 1 EXAFLOP 성능을 목표로 2027년 출시 예정이며, 약 1천만 달러 가격대임
  • 제작사인 tiny corp는 petaflop 상용화와 모두를 위한 AI 실현을 목표로 함

tinygrad 개요

  • tinygrad는 단순성과 성능을 중시하는 신경망 프레임워크로, 빠르게 성장 중인 프로젝트임
  • 복잡한 네트워크를 단 3가지 OpType으로 구성함: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨
    • ReduceOps는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음
    • MovementOps는 데이터를 복사 없이 이동시키는 가상 연산으로, ShapeTracker를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함
  • CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함

tinybox 제품 라인업

  • tinybox는 딥러닝용 고성능 컴퓨터로, red, green, exa 세 가지 모델로 구성됨
  • 각 모델의 주요 사양은 다음과 같음
    • red v2

      • GPU: 4x 9070XT
      • FP16(FP32 acc) 성능: 778 TFLOPS
      • GPU RAM: 64GB, 대역폭 2560 GB/s
      • CPU: 32코어 AMD EPYC
      • 시스템 RAM: 128GB, 대역폭 204.8 GB/s
      • 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s
      • 네트워킹: 2x 1GbE + OCP3.0
      • 전원: 1600W
      • 소음: 50dB 미만
      • 가격: $12,000, 즉시 배송 가능
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • FP16(FP32 acc) 성능: 3086 TFLOPS
      • GPU RAM: 384GB, 대역폭 7168 GB/s
      • CPU: 32코어 AMD GENOA
      • 시스템 RAM: 192GB, 대역폭 460.8 GB/s
      • 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s
      • 네트워킹: 2x 10GbE + OCP3.0
      • 전원: 2x 1600W
      • 소음: 65dB (10m 거리 기준)
      • 가격: $65,000, 즉시 배송 가능
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • FP16(FP32 acc) 성능: 약 1 EXAFLOP
      • GPU RAM: 25,920GB, 대역폭 1244 TB/s
      • CPU: 120x 32코어 AMD GENOA
      • 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s
      • 디스크: 480TB RAID, 읽기 속도 7.1 TB/s
      • 네트워킹: PCIe5 3.2 TB/s 확장 지원
      • 전원: 600kW
      • 크기: 20x8x8.5 ft, 무게 20,000 lbs
      • 출시 예정: 2027년, 예상가 약 $10M
      • 모든 모델은 Ubuntu 24.04 운영체제를 사용하며, 독립형 또는 랙 마운트형으로 설치 가능함
      • 제품 및 재고 업데이트는 메일링 리스트를 통해 제공됨

FAQ

  • tinybox 개요

    • 딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음

      • MLPerf Training 4.0 벤치마크에서 10배 비싼 시스템과 비교 테스트됨
      • 학습뿐 아니라 추론(inference) 도 수행 가능함
  • 주문 및 배송

    • 웹사이트에서 주문 가능하며, 결제 후 1주 이내 배송
    • 샌디에이고 현장 수령 또는 전 세계 배송 지원
  • 커스터마이징 및 결제

    • 가격과 품질 유지를 위해 커스터마이징 불가

      • 결제는 전신 송금(wire transfer) 만 가능
      • W-9 양식다운로드 링크에서 제공됨
  • tinygrad 사용처

    • openpilot에서 Snapdragon 845 GPU 기반 주행 모델 실행에 사용됨
    • Qualcomm SNPE를 대체하며, 더 빠르고 ONNX 로딩, 학습 지원, attention 기능을 제공함
  • 기능 및 성능

    • 추론 전용이 아니며, autodiff 기반의 forward/backward 패스 모두 지원
    • PyTorch와 유사한 API를 제공하지만 구조는 더 단순함
    • 알파 버전으로 안정성은 낮으나 최근에는 비교적 안정적임
    • PyTorch보다 2배 빠른 논문 재현이 가능해질 때 알파 단계를 종료할 예정임
    • 속도 향상 요인
      • 각 연산마다 맞춤형 커널 컴파일로 형태별 최적화
      • lazy tensor 구조로 연산을 적극적으로 fusion
      • 간결한 백엔드로 커널 최적화 시 전체 성능 향상
  • 개발 및 커뮤니티

    • 개발은 GitHubDiscord에서 진행 중
    • tinygrad 기여(PR) 는 채용 및 투자 참여의 주요 경로로 간주됨
    • tiny corp의 목표petaflop 상용화모두를 위한 AI 실현
Hacker News 의견들
  • 이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
    디자인과 글의 톤이 매우 인간적임
    그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
    다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움

    • AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
      업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함
    • “Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 AI 생성 코드에 대한 정책이 없는 점이 의아했음
      아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함
    • 6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음
    • 사실 미국의 240V 회로는 120V 두 개를 묶은 것이라, 재배선은 어렵지 않음
  • 기본 모델이 1만2천 달러라니 너무 비쌈
    나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
    완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌

    • M3 Max의 tflops 성능은 12k 박스와 비교 불가할 정도로 작음
    • 이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임
      그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
  • red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
    나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
    120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
    KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
    현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
    게다가 왜 12U인지 모르겠음. 내 리그는 4U임
    green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
    존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨

    • 성능은 괜찮지만 미친 수준은 아님
      나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
      64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임
    • 12U인 이유는 아마 단일 케이스 SKU를 쓰기 때문일 것임
      “가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함
    • 솔직히 RTX 8000 두 개가 red v2보다 ROI가 더 좋을 것 같음
      나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
      green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨
    • 그게 Blackwell 6000보다 싸게 들었는지 궁금함
      4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음
    • KV를 시스템 RAM이나 스토리지로 오프로딩하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임
      일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
  • exabox가 흥미로움
    누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
    아마 가성비를 중시하는 ML 스타트업을 노린 듯함
    실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
    NV의 인터커넥트 품질엔 못 미치겠지만
    누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까

    • 대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
      그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임
    • “exabox가 흥미롭다”는 말에 대한 농담으로 “Crysis 돌릴 수 있냐”는 반응이 있었음
  • 이게 새로운 크립토 채굴기 같은 건가 싶음
    예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임

    • 비슷하긴 한데, 보상 블록이 없다는 점이 다름
  • Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음

  • Decoy effect 개념을 떠올리게 함

  • 이 장비는 냉각을 어떻게 처리하는지 궁금함

  • tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
    pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
    대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
    만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임

  • 왜 6 GPU 구성을 중단했는지 모르겠음
    4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능
    6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
    그만큼 가성비는 더 좋았다고 생각함