Hacker News 의견들
  • 나는 MLX 팀의 트위터를 팔로우하고 있음. 그들이 종종 두 대 이상의 Mac을 연결해 512GB 이상의 RAM이 필요한 모델을 돌리는 사례를 공유함
    예를 들어 Kimi K2 Thinking (1T 파라미터)DeepSeek R1 (671B)가 있음. 후자는 설정 가이드 Gist도 함께 제공됨

    • 이 게시물들은 파이프라인 병렬화를 사용한 예시임. N대의 머신이 있을 때 각 머신에 L/N개의 레이어를 분배하는 방식임. 속도 향상은 없지만, 단일 머신에 안 들어가는 큰 모델을 돌릴 수 있게 해줌
      다가올 Tahoe 26.2 릴리스에서는 텐서 병렬화가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
    • 지난주 RDMA 기반 텐서 병렬 테스트를 진행했음. 테스트 링크. 빠른 동기화(fast sync) 우회 방법도 언급됨
    • 비전문가에게는 이 방식이 그리 매력적이지 않기를 바람. 병렬 워크로드나 컨텍스트 처리에서는 성능이 잘 스케일링되지 않음
      대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
    • 가장 놀라운 건 전력 소비량임. 두 대 합쳐 약 50W라니, 내가 잘못 본 게 아닌지 의심됨
  • $50,000 예산으로 추론용 하드웨어를 비교해봤음

    • Apple M3 Ultra 클러스터 ($50k): 용량(3TB)을 극대화함. 3T+ 파라미터 모델(Kimi K2 등)을 돌릴 수 있는 유일한 옵션이지만 속도는 낮음 (~15 t/s)
    • NVIDIA RTX 6000 워크스테이션 ($50k): 처리량(>80 t/s)을 극대화함. 학습과 추론 모두 우수하지만 VRAM이 384GB로 제한되어 400B 미만 모델만 가능함
    • 동일한 용량(3TB)과 100 t/s 이상의 처리량을 모두 얻으려면 약 $270,000짜리 NVIDIA GH200 클러스터가 필요함. Apple 클러스터는 그 용량의 87%를 18%의 비용으로 제공함
    • 더 저렴하게도 가능함. 나는 $2,000짜리 듀얼 소켓 Xeon 워크스테이션(768GB RAM) 으로 DeepSeek-R1을 초당 1~2 토큰 속도로 돌리고 있음
    • $50k짜리 NVIDIA 클러스터 계산이 궁금함. RTX 6000이 대략 $8k라면 5대 정도로 40k에 반 TB쯤 가능함. 그래도 추론용으로는 Mac이 여전히 효율적이며, M5 Ultra는 더 나은 가격 대비 성능을 보여줄 듯함
    • 같은 예산으로 Framework 데스크탑 보드 25개(각 128GB VRAM, Strix Halo 탑재)를 살 수도 있음. 총 3TB VRAM이지만, 클러스터링은 꽤 도전적일 듯함
    • 아직 구현되지 않은 병렬 속도 향상 기능을 고려하면, 온프레미스 추론 환경에서는 꽤 괜찮은 거래처럼 보임
    • Apple은 LPDDR5X를 써서 에너지 효율과 비용을 낮추는 반면, NVIDIA는 GDDR/HBM으로 성능을 우선시함
  • 요즘 RAM 시장 혼란 속에서도 Apple의 안정적인 공급망 덕분에, Apple 컴퓨팅이 중형 추론 클러스터 구축의 가성비 좋은 선택지로 자리 잡는다면 정말 아이러니할 것 같음

    • 상업용 사용자가 좋은 Mac을 다 사버리면 좀 곤란할 듯함
    • 이미 일부 용도에서는 그렇게 되고 있음
  • 여러 대의 Mac Studio를 클러스터로 묶는다는 건데, 물리적·관리적 제약이 걱정됨

    1. 전원 버튼 위치가 애매해서 랙마운트 시 불편함
    2. Thunderbolt는 주변기기용으로는 좋지만, 지속 연결용 인터커넥트로는 포트 내구성이 걱정됨
    3. 케이블 품질이 중요함. TB4/TB5는 고가 케이블 아니면 문제 많았음
    4. macOS 원격 관리가 Linux보다 비효율적임. 예를 들어 macOS 26.1 → 26.2 업그레이드를 GUI 없이 하려면 어려움이 있음. sudo softwareupdate -i -a로는 마이너 업데이트만 가능함
    • #2 관련해서 OWC 도크에는 케이블 고정용 나사홀이 있음. OWC Thunderbolt DockClingOn 어댑터로 포트 스트레스를 줄일 수 있음
    • 전원 버튼 문제는 RackMac Studio 인클로저로 해결 가능함. 버튼을 기계적으로 연장해줌
    • Thunderbolt를 서버 인터커넥트로 쓰는 게 미적으로는 별로지만, 랙에 고정된 상태라면 오히려 물리적 스트레스가 적음
    • MDM 솔루션을 쓰면 소프트웨어 업데이트뿐 아니라 LOM(원격 전원 관리)까지 가능함. 오픈소스 MDM도 존재함
    • 아직 Mac Pro 랙마운트 버전도 판매 중이지만 M3 Ultra로는 업데이트되지 않아 곧 단종될 듯함
  • Apple이 자체적으로 M 시리즈 기반 클라우드를 구축해, Metal을 AI용으로 강화하고, 프라이버시 중심의 셀프 호스팅 모델을 제공하면 좋겠음. 민감 데이터가 많은 산업에서 큰 성공을 거둘 수 있을 것 같음

    • 이미 비슷한 개념의 Private Cloud Compute가 존재하지만, Apple 모델을 사용하는 iUser 전용임
    • 데이터센터에서는 GPU당 큰 메모리보다 고속 인터커넥트 기반 샤딩이 더 효율적임. NVIDIA나 AMD GPU가 여전히 계산 성능 면에서는 우위임
  • AI 외의 일반 분산 워크로드에도 이 기능을 쓸 수 있는지 궁금함

    • HPL과 mpirun으로 테스트해봤는데, 아직 RDMA는 지원되지 않고 Ring 방식만 가능함. 다소 거칠지만 동작은 함
      참고: MLX 분산 사용 가이드
  • 관련 기사: Engadget - macOS Tahoe 26.2에서 Mac 클러스터로 AI 슈퍼컴퓨터 구축

  • George Hotz가 tinygrad를 이용해 USB4로 Mac에서 NVIDIA GPU를 구동시켰음
    tinygrad 트윗

  • RDMA가 뭔지 잘 모르겠는데, 여러 Mac을 연결해 추론을 병렬로 실행할 수 있다는 뜻인가? 그렇다면 정말 멋진 기능임

    • 이미 1년 전부터 여러 Mac에서 추론이 가능했지만, 이제 훨씬 빠르게 동작