Hacker News 의견들
  • 이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
    디자인과 글의 톤이 매우 인간적임
    그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
    다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움

    • AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
      업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함
    • “Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 AI 생성 코드에 대한 정책이 없는 점이 의아했음
      아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함
    • 6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음
    • 사실 미국의 240V 회로는 120V 두 개를 묶은 것이라, 재배선은 어렵지 않음
  • 기본 모델이 1만2천 달러라니 너무 비쌈
    나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
    완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌

    • M3 Max의 tflops 성능은 12k 박스와 비교 불가할 정도로 작음
    • 이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임
      그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
  • red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
    나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
    120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
    KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
    현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
    게다가 왜 12U인지 모르겠음. 내 리그는 4U임
    green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
    존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨

    • 성능은 괜찮지만 미친 수준은 아님
      나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
      64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임
    • 12U인 이유는 아마 단일 케이스 SKU를 쓰기 때문일 것임
      “가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함
    • 솔직히 RTX 8000 두 개가 red v2보다 ROI가 더 좋을 것 같음
      나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
      green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨
    • 그게 Blackwell 6000보다 싸게 들었는지 궁금함
      4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음
    • KV를 시스템 RAM이나 스토리지로 오프로딩하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임
      일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
  • exabox가 흥미로움
    누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
    아마 가성비를 중시하는 ML 스타트업을 노린 듯함
    실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
    NV의 인터커넥트 품질엔 못 미치겠지만
    누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까

    • 대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
      그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임
    • “exabox가 흥미롭다”는 말에 대한 농담으로 “Crysis 돌릴 수 있냐”는 반응이 있었음
  • 이게 새로운 크립토 채굴기 같은 건가 싶음
    예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임

    • 비슷하긴 한데, 보상 블록이 없다는 점이 다름
  • Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음

  • Decoy effect 개념을 떠올리게 함

  • 이 장비는 냉각을 어떻게 처리하는지 궁금함

  • tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
    pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
    대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
    만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임

  • 왜 6 GPU 구성을 중단했는지 모르겠음
    4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능
    6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
    그만큼 가성비는 더 좋았다고 생각함