8P by GN⁺ 1일전 | ★ favorite | 댓글 4개
  • macOS Tahoe 26.2Thunderbolt 5 기반 RDMA 기능이 새로 추가되어, MLX를 활용한 분산 AI 추론 등 저지연 통신이 가능해짐
  • 이는 “Mac을 고속 분산 컴퓨팅 노드로 취급할 수 있게 만드는 것” 으로, macOS가 단순한 데스크톱 OS를 넘어, 로컬 AI·HPC 실험 플랫폼으로 확장이 가능해짐

RDMA란 무엇인가

  • RDMA(Remote Direct Memory Access) 는 한 컴퓨터가 다른 컴퓨터의 메모리에 CPU 개입 없이 직접 접근하는 통신 방식
  • 네트워크 스택, 커널 복사, 컨텍스트 스위칭을 우회해 지연 시간(latency)을 극단적으로 줄이고 처리량을 크게 높임
  • 주로 InfiniBand, RoCE 같은 데이터센터 네트워크에서 사용되어 왔음
  • 고성능 컴퓨팅(HPC), 분산 스토리지, 대규모 AI 학습·추론에서 표준적인 기술로 자리 잡음
  • 핵심은 “네트워크 통신을 하는데도 마치 같은 메모리를 쓰는 것처럼 빠르게 동작” 한다는 점

RDMA over Thunderbolt의 의미

  • macOS 26.2에서는 Thunderbolt 5로 연결된 Mac들 사이에서 RDMA 통신을 지원
  • 기존에는 RDMA가 서버급 네트워크 장비에 한정되었다면, 이제는 케이블 하나로 연결한 로컬 Mac 클러스터에서도 가능해진 셈
  • Thunderbolt의 높은 대역폭과 매우 낮은 지연 시간을 RDMA 모델로 그대로 활용 가능
  • 즉, “책상 위 Mac 여러 대를 데이터센터처럼 묶는 통로” 가 열린 것

왜 AI 워크로드와 잘 맞는가

  • 분산 AI 추론이나 학습에서는 노드 간 텐서 교환이 병목이 되기 쉬움
  • RDMA는 이 과정에서 CPU를 소모하지 않고 GPU ↔ GPU에 가까운 통신 패턴을 제공
  • 릴리스 노트에 언급된 MLX 기반 분산 AI 추론은 이런 저지연·고대역 통신을 전제로 설계된 구조
  • 모델을 여러 Mac에 나눠 올리고, 단일 머신처럼 동작하는 추론 클러스터 구성 가능성 확대
  • 소규모 팀이나 연구 환경에서 “서버 없이 Mac으로 AI 클러스터 구성” 하는 것이 현실적인 선택지가 됨

실제로 가능해지는 사용 시나리오

  • Mac Studio / Mac Pro 여러 대를 Thunderbolt로 연결해 로컬 AI 추론 팜 구성
  • 대형 모델을 단일 GPU에 올리기 어려운 경우, 모델 분할 추론 실험 가능
  • 로컬 분산 시뮬레이션, 고속 데이터 파이프라인, 실험적 분산 시스템 연구
  • 데이터센터 이전 단계에서의 프로토타입·PoC 환경 구축 비용 대폭 절감

썬볼 네트워킹이 정말 편하긴 하죠
데이지체인이 되니 허브도 필요 없고

이제 맥 기기들 연결해서 추론팜 만들어놓고 집에서 서비스 하시는 분들도 꽤 생기시겠네요.

애플의 공식 릴리즈노트는 "RDMA over Thunderbolt"가 가능해졌다는 것 단 한 줄이어서, GN+로 추가 설명을 적은 것입니다.

Hacker News 의견들
  • 나는 MLX 팀의 트위터를 팔로우하고 있음. 그들이 종종 두 대 이상의 Mac을 연결해 512GB 이상의 RAM이 필요한 모델을 돌리는 사례를 공유함
    예를 들어 Kimi K2 Thinking (1T 파라미터)DeepSeek R1 (671B)가 있음. 후자는 설정 가이드 Gist도 함께 제공됨

    • 이 게시물들은 파이프라인 병렬화를 사용한 예시임. N대의 머신이 있을 때 각 머신에 L/N개의 레이어를 분배하는 방식임. 속도 향상은 없지만, 단일 머신에 안 들어가는 큰 모델을 돌릴 수 있게 해줌
      다가올 Tahoe 26.2 릴리스에서는 텐서 병렬화가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
    • 지난주 RDMA 기반 텐서 병렬 테스트를 진행했음. 테스트 링크. 빠른 동기화(fast sync) 우회 방법도 언급됨
    • 비전문가에게는 이 방식이 그리 매력적이지 않기를 바람. 병렬 워크로드나 컨텍스트 처리에서는 성능이 잘 스케일링되지 않음
      대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
    • 가장 놀라운 건 전력 소비량임. 두 대 합쳐 약 50W라니, 내가 잘못 본 게 아닌지 의심됨
  • $50,000 예산으로 추론용 하드웨어를 비교해봤음

    • Apple M3 Ultra 클러스터 ($50k): 용량(3TB)을 극대화함. 3T+ 파라미터 모델(Kimi K2 등)을 돌릴 수 있는 유일한 옵션이지만 속도는 낮음 (~15 t/s)
    • NVIDIA RTX 6000 워크스테이션 ($50k): 처리량(>80 t/s)을 극대화함. 학습과 추론 모두 우수하지만 VRAM이 384GB로 제한되어 400B 미만 모델만 가능함
    • 동일한 용량(3TB)과 100 t/s 이상의 처리량을 모두 얻으려면 약 $270,000짜리 NVIDIA GH200 클러스터가 필요함. Apple 클러스터는 그 용량의 87%를 18%의 비용으로 제공함
    • 더 저렴하게도 가능함. 나는 $2,000짜리 듀얼 소켓 Xeon 워크스테이션(768GB RAM) 으로 DeepSeek-R1을 초당 1~2 토큰 속도로 돌리고 있음
    • $50k짜리 NVIDIA 클러스터 계산이 궁금함. RTX 6000이 대략 $8k라면 5대 정도로 40k에 반 TB쯤 가능함. 그래도 추론용으로는 Mac이 여전히 효율적이며, M5 Ultra는 더 나은 가격 대비 성능을 보여줄 듯함
    • 같은 예산으로 Framework 데스크탑 보드 25개(각 128GB VRAM, Strix Halo 탑재)를 살 수도 있음. 총 3TB VRAM이지만, 클러스터링은 꽤 도전적일 듯함
    • 아직 구현되지 않은 병렬 속도 향상 기능을 고려하면, 온프레미스 추론 환경에서는 꽤 괜찮은 거래처럼 보임
    • Apple은 LPDDR5X를 써서 에너지 효율과 비용을 낮추는 반면, NVIDIA는 GDDR/HBM으로 성능을 우선시함
  • 요즘 RAM 시장 혼란 속에서도 Apple의 안정적인 공급망 덕분에, Apple 컴퓨팅이 중형 추론 클러스터 구축의 가성비 좋은 선택지로 자리 잡는다면 정말 아이러니할 것 같음

    • 상업용 사용자가 좋은 Mac을 다 사버리면 좀 곤란할 듯함
    • 이미 일부 용도에서는 그렇게 되고 있음
  • 여러 대의 Mac Studio를 클러스터로 묶는다는 건데, 물리적·관리적 제약이 걱정됨

    1. 전원 버튼 위치가 애매해서 랙마운트 시 불편함
    2. Thunderbolt는 주변기기용으로는 좋지만, 지속 연결용 인터커넥트로는 포트 내구성이 걱정됨
    3. 케이블 품질이 중요함. TB4/TB5는 고가 케이블 아니면 문제 많았음
    4. macOS 원격 관리가 Linux보다 비효율적임. 예를 들어 macOS 26.1 → 26.2 업그레이드를 GUI 없이 하려면 어려움이 있음. sudo softwareupdate -i -a로는 마이너 업데이트만 가능함
    • #2 관련해서 OWC 도크에는 케이블 고정용 나사홀이 있음. OWC Thunderbolt DockClingOn 어댑터로 포트 스트레스를 줄일 수 있음
    • 전원 버튼 문제는 RackMac Studio 인클로저로 해결 가능함. 버튼을 기계적으로 연장해줌
    • Thunderbolt를 서버 인터커넥트로 쓰는 게 미적으로는 별로지만, 랙에 고정된 상태라면 오히려 물리적 스트레스가 적음
    • MDM 솔루션을 쓰면 소프트웨어 업데이트뿐 아니라 LOM(원격 전원 관리)까지 가능함. 오픈소스 MDM도 존재함
    • 아직 Mac Pro 랙마운트 버전도 판매 중이지만 M3 Ultra로는 업데이트되지 않아 곧 단종될 듯함
  • Apple이 자체적으로 M 시리즈 기반 클라우드를 구축해, Metal을 AI용으로 강화하고, 프라이버시 중심의 셀프 호스팅 모델을 제공하면 좋겠음. 민감 데이터가 많은 산업에서 큰 성공을 거둘 수 있을 것 같음

    • 이미 비슷한 개념의 Private Cloud Compute가 존재하지만, Apple 모델을 사용하는 iUser 전용임
    • 데이터센터에서는 GPU당 큰 메모리보다 고속 인터커넥트 기반 샤딩이 더 효율적임. NVIDIA나 AMD GPU가 여전히 계산 성능 면에서는 우위임
  • AI 외의 일반 분산 워크로드에도 이 기능을 쓸 수 있는지 궁금함

    • HPL과 mpirun으로 테스트해봤는데, 아직 RDMA는 지원되지 않고 Ring 방식만 가능함. 다소 거칠지만 동작은 함
      참고: MLX 분산 사용 가이드
  • 관련 기사: Engadget - macOS Tahoe 26.2에서 Mac 클러스터로 AI 슈퍼컴퓨터 구축

  • George Hotz가 tinygrad를 이용해 USB4로 Mac에서 NVIDIA GPU를 구동시켰음
    tinygrad 트윗

  • RDMA가 뭔지 잘 모르겠는데, 여러 Mac을 연결해 추론을 병렬로 실행할 수 있다는 뜻인가? 그렇다면 정말 멋진 기능임

    • 이미 1년 전부터 여러 Mac에서 추론이 가능했지만, 이제 훨씬 빠르게 동작