macOS 26.2 부터 Thunderbolt를 통한 RDMA로 빠른 AI 클러스터 구성이 가능해짐

(developer.apple.com)

11P by GN⁺ 3달전 | ★ favorite | 댓글 4개

macOS Tahoe 26.2에 Thunderbolt 5 기반 RDMA 기능이 새로 추가되어, MLX를 활용한 분산 AI 추론 등 저지연 통신이 가능해짐
이는 “Mac을 고속 분산 컴퓨팅 노드로 취급할 수 있게 만드는 것” 으로, macOS가 단순한 데스크톱 OS를 넘어, 로컬 AI·HPC 실험 플랫폼으로 확장이 가능해짐

RDMA란 무엇인가

RDMA(Remote Direct Memory Access) 는 한 컴퓨터가 다른 컴퓨터의 메모리에 CPU 개입 없이 직접 접근하는 통신 방식
네트워크 스택, 커널 복사, 컨텍스트 스위칭을 우회해 지연 시간(latency)을 극단적으로 줄이고 처리량을 크게 높임
주로 InfiniBand, RoCE 같은 데이터센터 네트워크에서 사용되어 왔음
고성능 컴퓨팅(HPC), 분산 스토리지, 대규모 AI 학습·추론에서 표준적인 기술로 자리 잡음
핵심은 “네트워크 통신을 하는데도 마치 같은 메모리를 쓰는 것처럼 빠르게 동작” 한다는 점

RDMA over Thunderbolt의 의미

macOS 26.2에서는 Thunderbolt 5로 연결된 Mac들 사이에서 RDMA 통신을 지원
기존에는 RDMA가 서버급 네트워크 장비에 한정되었다면, 이제는 케이블 하나로 연결한 로컬 Mac 클러스터에서도 가능해진 셈
Thunderbolt의 높은 대역폭과 매우 낮은 지연 시간을 RDMA 모델로 그대로 활용 가능
즉, “책상 위 Mac 여러 대를 데이터센터처럼 묶는 통로” 가 열린 것

왜 AI 워크로드와 잘 맞는가

분산 AI 추론이나 학습에서는 노드 간 텐서 교환이 병목이 되기 쉬움
RDMA는 이 과정에서 CPU를 소모하지 않고 GPU ↔ GPU에 가까운 통신 패턴을 제공
릴리스 노트에 언급된 MLX 기반 분산 AI 추론은 이런 저지연·고대역 통신을 전제로 설계된 구조
모델을 여러 Mac에 나눠 올리고, 단일 머신처럼 동작하는 추론 클러스터 구성 가능성 확대
소규모 팀이나 연구 환경에서 “서버 없이 Mac으로 AI 클러스터 구성” 하는 것이 현실적인 선택지가 됨

실제로 가능해지는 사용 시나리오

Mac Studio / Mac Pro 여러 대를 Thunderbolt로 연결해 로컬 AI 추론 팜 구성
대형 모델을 단일 GPU에 올리기 어려운 경우, 모델 분할 추론 실험 가능
로컬 분산 시뮬레이션, 고속 데이터 파이프라인, 실험적 분산 시스템 연구
데이터센터 이전 단계에서의 프로토타입·PoC 환경 구축 비용 대폭 절감

▲

bus710 3달전 [-]

썬볼 네트워킹이 정말 편하긴 하죠
데이지체인이 되니 허브도 필요 없고

답변달기

▲

shakespeares 3달전 [-]

이제 맥 기기들 연결해서 추론팜 만들어놓고 집에서 서비스 하시는 분들도 꽤 생기시겠네요.

답변달기

▲

xguru 3달전 [-]

애플의 공식 릴리즈노트는 "RDMA over Thunderbolt"가 가능해졌다는 것 단 한 줄이어서, GN+로 추가 설명을 적은 것입니다.

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견들

나는 MLX 팀의 트위터를 팔로우하고 있음. 그들이 종종 두 대 이상의 Mac을 연결해 512GB 이상의 RAM이 필요한 모델을 돌리는 사례를 공유함
예를 들어 Kimi K2 Thinking (1T 파라미터)과 DeepSeek R1 (671B)가 있음. 후자는 설정 가이드 Gist도 함께 제공됨
- 이 게시물들은 파이프라인 병렬화를 사용한 예시임. N대의 머신이 있을 때 각 머신에 L/N개의 레이어를 분배하는 방식임. 속도 향상은 없지만, 단일 머신에 안 들어가는 큰 모델을 돌릴 수 있게 해줌
  다가올 Tahoe 26.2 릴리스에서는 텐서 병렬화가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
- 지난주 RDMA 기반 텐서 병렬 테스트를 진행했음. 테스트 링크. 빠른 동기화(fast sync) 우회 방법도 언급됨
- 비전문가에게는 이 방식이 그리 매력적이지 않기를 바람. 병렬 워크로드나 컨텍스트 처리에서는 성능이 잘 스케일링되지 않음
  대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
- 가장 놀라운 건 전력 소비량임. 두 대 합쳐 약 50W라니, 내가 잘못 본 게 아닌지 의심됨
$50,000 예산으로 추론용 하드웨어를 비교해봤음
- Apple M3 Ultra 클러스터 ($50k): 용량(3TB)을 극대화함. 3T+ 파라미터 모델(Kimi K2 등)을 돌릴 수 있는 유일한 옵션이지만 속도는 낮음 (~15 t/s)
- NVIDIA RTX 6000 워크스테이션 ($50k): 처리량(>80 t/s)을 극대화함. 학습과 추론 모두 우수하지만 VRAM이 384GB로 제한되어 400B 미만 모델만 가능함
- 동일한 용량(3TB)과 100 t/s 이상의 처리량을 모두 얻으려면 약 $270,000짜리 NVIDIA GH200 클러스터가 필요함. Apple 클러스터는 그 용량의 87%를 18%의 비용으로 제공함
- 더 저렴하게도 가능함. 나는 $2,000짜리 듀얼 소켓 Xeon 워크스테이션(768GB RAM) 으로 DeepSeek-R1을 초당 1~2 토큰 속도로 돌리고 있음
- $50k짜리 NVIDIA 클러스터 계산이 궁금함. RTX 6000이 대략 $8k라면 5대 정도로 40k에 반 TB쯤 가능함. 그래도 추론용으로는 Mac이 여전히 효율적이며, M5 Ultra는 더 나은 가격 대비 성능을 보여줄 듯함
- 같은 예산으로 Framework 데스크탑 보드 25개(각 128GB VRAM, Strix Halo 탑재)를 살 수도 있음. 총 3TB VRAM이지만, 클러스터링은 꽤 도전적일 듯함
- 아직 구현되지 않은 병렬 속도 향상 기능을 고려하면, 온프레미스 추론 환경에서는 꽤 괜찮은 거래처럼 보임
- Apple은 LPDDR5X를 써서 에너지 효율과 비용을 낮추는 반면, NVIDIA는 GDDR/HBM으로 성능을 우선시함
요즘 RAM 시장 혼란 속에서도 Apple의 안정적인 공급망 덕분에, Apple 컴퓨팅이 중형 추론 클러스터 구축의 가성비 좋은 선택지로 자리 잡는다면 정말 아이러니할 것 같음
- 상업용 사용자가 좋은 Mac을 다 사버리면 좀 곤란할 듯함
- 이미 일부 용도에서는 그렇게 되고 있음
여러 대의 Mac Studio를 클러스터로 묶는다는 건데, 물리적·관리적 제약이 걱정됨
1. 전원 버튼 위치가 애매해서 랙마운트 시 불편함
2. Thunderbolt는 주변기기용으로는 좋지만, 지속 연결용 인터커넥트로는 포트 내구성이 걱정됨
3. 케이블 품질이 중요함. TB4/TB5는 고가 케이블 아니면 문제 많았음
4. macOS 원격 관리가 Linux보다 비효율적임. 예를 들어 macOS 26.1 → 26.2 업그레이드를 GUI 없이 하려면 어려움이 있음. sudo softwareupdate -i -a로는 마이너 업데이트만 가능함
- #2 관련해서 OWC 도크에는 케이블 고정용 나사홀이 있음. OWC Thunderbolt Dock과 ClingOn 어댑터로 포트 스트레스를 줄일 수 있음
- 전원 버튼 문제는 RackMac Studio 인클로저로 해결 가능함. 버튼을 기계적으로 연장해줌
- Thunderbolt를 서버 인터커넥트로 쓰는 게 미적으로는 별로지만, 랙에 고정된 상태라면 오히려 물리적 스트레스가 적음
- MDM 솔루션을 쓰면 소프트웨어 업데이트뿐 아니라 LOM(원격 전원 관리)까지 가능함. 오픈소스 MDM도 존재함
- 아직 Mac Pro 랙마운트 버전도 판매 중이지만 M3 Ultra로는 업데이트되지 않아 곧 단종될 듯함
Apple이 자체적으로 M 시리즈 기반 클라우드를 구축해, Metal을 AI용으로 강화하고, 프라이버시 중심의 셀프 호스팅 모델을 제공하면 좋겠음. 민감 데이터가 많은 산업에서 큰 성공을 거둘 수 있을 것 같음
- 이미 비슷한 개념의 Private Cloud Compute가 존재하지만, Apple 모델을 사용하는 iUser 전용임
- 데이터센터에서는 GPU당 큰 메모리보다 고속 인터커넥트 기반 샤딩이 더 효율적임. NVIDIA나 AMD GPU가 여전히 계산 성능 면에서는 우위임
AI 외의 일반 분산 워크로드에도 이 기능을 쓸 수 있는지 궁금함
- HPL과 mpirun으로 테스트해봤는데, 아직 RDMA는 지원되지 않고 Ring 방식만 가능함. 다소 거칠지만 동작은 함
  참고: MLX 분산 사용 가이드
관련 기사: Engadget - macOS Tahoe 26.2에서 Mac 클러스터로 AI 슈퍼컴퓨터 구축
George Hotz가 tinygrad를 이용해 USB4로 Mac에서 NVIDIA GPU를 구동시켰음
tinygrad 트윗
- Linux를 구동 중인 2023 Mac Pro에서 NVIDIA 실행 예시도 있음
RDMA가 뭔지 잘 모르겠는데, 여러 Mac을 연결해 추론을 병렬로 실행할 수 있다는 뜻인가? 그렇다면 정말 멋진 기능임
- 이미 1년 전부터 여러 Mac에서 추론이 가능했지만, 이제 훨씬 빠르게 동작함

답변달기