이 게시물들은 파이프라인 병렬화를 사용한 예시임. N대의 머신이 있을 때 각 머신에 L/N개의 레이어를 분배하는 방식임. 속도 향상은 없지만, 단일 머신에 안 들어가는 큰 모델을 돌릴 수 있게 해줌
다가올 Tahoe 26.2 릴리스에서는 텐서 병렬화가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
지난주 RDMA 기반 텐서 병렬 테스트를 진행했음. 테스트 링크. 빠른 동기화(fast sync) 우회 방법도 언급됨
비전문가에게는 이 방식이 그리 매력적이지 않기를 바람. 병렬 워크로드나 컨텍스트 처리에서는 성능이 잘 스케일링되지 않음
대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
가장 놀라운 건 전력 소비량임. 두 대 합쳐 약 50W라니, 내가 잘못 본 게 아닌지 의심됨
$50,000 예산으로 추론용 하드웨어를 비교해봤음
Apple M3 Ultra 클러스터 ($50k): 용량(3TB)을 극대화함. 3T+ 파라미터 모델(Kimi K2 등)을 돌릴 수 있는 유일한 옵션이지만 속도는 낮음 (~15 t/s)
Hacker News 의견들
나는 MLX 팀의 트위터를 팔로우하고 있음. 그들이 종종 두 대 이상의 Mac을 연결해 512GB 이상의 RAM이 필요한 모델을 돌리는 사례를 공유함
예를 들어 Kimi K2 Thinking (1T 파라미터)과 DeepSeek R1 (671B)가 있음. 후자는 설정 가이드 Gist도 함께 제공됨
다가올 Tahoe 26.2 릴리스에서는 텐서 병렬화가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
$50,000 예산으로 추론용 하드웨어를 비교해봤음
요즘 RAM 시장 혼란 속에서도 Apple의 안정적인 공급망 덕분에, Apple 컴퓨팅이 중형 추론 클러스터 구축의 가성비 좋은 선택지로 자리 잡는다면 정말 아이러니할 것 같음
여러 대의 Mac Studio를 클러스터로 묶는다는 건데, 물리적·관리적 제약이 걱정됨
sudo softwareupdate -i -a로는 마이너 업데이트만 가능함Apple이 자체적으로 M 시리즈 기반 클라우드를 구축해, Metal을 AI용으로 강화하고, 프라이버시 중심의 셀프 호스팅 모델을 제공하면 좋겠음. 민감 데이터가 많은 산업에서 큰 성공을 거둘 수 있을 것 같음
AI 외의 일반 분산 워크로드에도 이 기능을 쓸 수 있는지 궁금함
참고: MLX 분산 사용 가이드
관련 기사: Engadget - macOS Tahoe 26.2에서 Mac 클러스터로 AI 슈퍼컴퓨터 구축
George Hotz가 tinygrad를 이용해 USB4로 Mac에서 NVIDIA GPU를 구동시켰음
tinygrad 트윗
RDMA가 뭔지 잘 모르겠는데, 여러 Mac을 연결해 추론을 병렬로 실행할 수 있다는 뜻인가? 그렇다면 정말 멋진 기능임