이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
디자인과 글의 톤이 매우 인간적임
그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움
AI 관련 글 중 진짜로 존중받는 글들은 대부분 AI가 쓴 흔적이 거의 없음
업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함
“Invest with your PRs”로 코드 기여를 공개적으로 받으면서도 AI 생성 코드에 대한 정책이 없는 점이 의아했음
아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함
6만5천 달러짜리 장비를 사는 사람에게 회로 두 개 찾는 건 사소한 문제일 것 같음
사실 미국의 240V 회로는 120V 두 개를 묶은 것이라, 재배선은 어렵지 않음
기본 모델이 1만2천 달러라니 너무 비쌈
나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌
M3 Max의 tflops 성능은 12k 박스와 비교 불가할 정도로 작음
이런 장비는 바보용임. 작년에 160GB VRAM을 1천 달러에 샀고, 96GB P40 VRAM도 천 달러 이하임
그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
게다가 왜 12U인지 모르겠음. 내 리그는 4U임
green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨
성능은 괜찮지만 미친 수준은 아님
나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임
12U인 이유는 아마 단일 케이스 SKU를 쓰기 때문일 것임
“가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함
솔직히 RTX 8000 두 개가 red v2보다 ROI가 더 좋을 것 같음
나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨
그게 Blackwell 6000보다 싸게 들었는지 궁금함
4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음
KV를 시스템 RAM이나 스토리지로 오프로딩하면 더 긴 컨텍스트를 쓸 수 있지 않겠냐는 생각임
일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
exabox가 흥미로움
누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
아마 가성비를 중시하는 ML 스타트업을 노린 듯함
실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
NV의 인터커넥트 품질엔 못 미치겠지만
누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까
대기업 인프라는 5년 이상 된 경우가 많아서, 업그레이드 비용이 너무 커서 쉽게 바꾸지 못함
그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임
“exabox가 흥미롭다”는 말에 대한 농담으로 “Crysis 돌릴 수 있냐”는 반응이 있었음
이게 새로운 크립토 채굴기 같은 건가 싶음
예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임
비슷하긴 한데, 보상 블록이 없다는 점이 다름
Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음
tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임
왜 6 GPU 구성을 중단했는지 모르겠음
4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능함
6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
그만큼 가성비는 더 좋았다고 생각함
Hacker News 의견들
이 웹사이트가 AI가 아닌 사람 손으로 만든 듯한 느낌이 강해서 아이러니함을 느꼈음
디자인과 글의 톤이 매우 인간적임
그래도 아이디어는 훌륭하고, 이런 로컬 학습형 모델이 대기업 모델 의존을 줄이는 미래가 될 거라 생각함
다만 240V 회로에 바로 연결할 수 있으면 좋겠음. 두 개의 120V 회로를 찾아야 하는 건 꽤 번거로움
업계 사람들이 신호와 잡음을 구분하는 데 예민하기 때문이라 생각함
아마도 품질이 낮은 PR은 정중히 무시할 수 있을 만큼 볼륨이 적어서, 생성 방식은 중요하지 않은 듯함
기본 모델이 1만2천 달러라니 너무 비쌈
나는 Apple M3 Max(128GB RAM)로 120B 파라미터 모델을 80W 전력으로 초당 15~20토큰 속도로 돌림
완벽하진 않지만 1만2천 달러짜리 장비보단 낫다고 느낌
그걸로 gpt-oss-120b Q8을 초당 30토큰 정도로 돌릴 수 있음
red v2가 120B 모델을 제대로 돌릴 수 있을 리 없음
나는 dual A100 AI homelab을 직접 만들었는데, 80GB VRAM을 NVLink로 묶었음
120B 모델은 강한 양자화 없이는 불가능하고, 그 정도면 모델이 불안정해짐
KV 캐시 공간도 부족해서 4k 컨텍스트쯤에서 OOM 남
현재 70B 모델을 돌리는데도 빠듯함. 내 장비가 red v2보다 VRAM이 16GB 많음
게다가 왜 12U인지 모르겠음. 내 리그는 4U임
green v2는 GPU가 낫지만, 6만5천 달러면 CPU와 RAM도 훨씬 좋아야 함
존재 자체는 반갑지만, 솔직히 구성 비율이 이해 안 됨
나는 Epyc Milan 박스로 gpt-oss-120b Q4를 RAM과 GPU로 나눠 돌리며 초당 30~50토큰 정도 나옴
64G VRAM/128G RAM 구성은 비효율적임. MoE 모델도 라우터에 20B 정도만 필요하고 나머지 VRAM은 낭비임
“가격을 낮추고 품질을 유지하기 위해 서버 크기 커스터마이징은 제공하지 않는다”는 식의 답변일 듯함
나는 8 GPU 서버(5 RTX 8000, 3 RTX 6000 Ada)를 쓰는데, 기본 추론용으로 8000도 충분함
green 모델이 더 빠르겠지만 2만5천 달러의 추가 비용은 납득이 안 됨
4개의 Blackwell 6000이 3만2~3만6천 달러인데, 나머지 3만 달러는 어디로 갔는지 모르겠음
일부 로컬 AI 프레임워크는 VRAM 일부만 캐시로 쓰는 LRU 정책을 지원해서 오버헤드가 감당 가능함
exabox가 흥미로움
누가 고객일지 궁금함. Vera Rubin 발사 영상을 보고 나서는 NVIDIA와 하이퍼스케일 시장에서 경쟁하려는 게 상상도 안 됨
아마 가성비를 중시하는 ML 스타트업을 노린 듯함
실제로 가격을 보니 Vera Rubin이 GPU RAM 비슷한 수준에서 절반 가격임
NV의 인터커넥트 품질엔 못 미치겠지만
누가 이걸 살지 모르겠음. NV는 이미 출하 중이니까
그 틈새를 노리면 경쟁 가능함. 시장 점유율 0.01% 미만이면 대기업도 신경 안 쓸 것임
이게 새로운 크립토 채굴기 같은 건가 싶음
예전엔 채굴용 하드웨어를 팔더니, 이제는 AI용으로 파는 느낌임
Tinybox는 멋지지만, 시장은 아마 “Kimi 2.5를 초당 50토큰으로 돌릴 수 있음” 같은 명시적 성능 보장형 제품을 더 원할 것 같음
Decoy effect 개념을 떠올리게 함
이 장비는 냉각을 어떻게 처리하는지 궁금함
tinygrad가 “pytorch보다 2배 빠를 때 알파를 벗어난다”는 조건에 대해
pytorch가 어떤 워크로드에서 하드웨어 대비 2배 이상 느린지 구체적인 설명이 필요함
대부분의 논문은 표준 컴포넌트를 쓰고, pytorch는 이미 GPU 성능의 50% 이상을 뽑아내는 수준임
만약 커스텀 커널을 짜야만 성능이 나오는 특수한 경우라면, 그건 다른 문제임
왜 6 GPU 구성을 중단했는지 모르겠음
4 GPU(9070, RTX6000)는 2슬롯 디자인이라 일반 메인보드로도 구축 가능함
6 GPU는 라이저, PCIe 리타이머, 듀얼 PSU, 커스텀 케이스가 필요해서 복잡하지만
그만큼 가성비는 더 좋았다고 생각함