# macOS 26.2 부터 Thunderbolt를 통한 RDMA로 빠른 AI 클러스터 구성이 가능해짐

> Clean Markdown view of GeekNews topic #25042. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25042](https://news.hada.io/topic?id=25042)
- GeekNews Markdown: [https://news.hada.io/topic/25042.md](https://news.hada.io/topic/25042.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-13T15:32:50+09:00
- Updated: 2025-12-13T15:32:50+09:00
- Original source: [developer.apple.com](https://developer.apple.com/documentation/macos-release-notes/macos-26_2-release-notes#RDMA-over-Thunderbolt)
- Points: 11
- Comments: 4

## Summary

macOS **Tahoe 26.2**는 **Thunderbolt 5 기반 RDMA**를 지원해, 여러 대의 Mac을 초저지연 네트워크로 묶는 분산 컴퓨팅 환경을 제공합니다. 기존에 데이터센터 전용 기술이던 RDMA가 데스크톱 수준으로 내려오면서, 개발자는 **로컬 Mac 클러스터를 AI 추론·HPC 실험 플랫폼**처럼 활용할 수 있게 됩니다. Thunderbolt 케이블 하나로 GPU 간 통신에 가까운 속도를 구현해, 소규모 팀도 서버 없이 분산 AI 워크로드를 실험할 수 있는 기반이 마련되었습니다.

## Topic Body

- macOS **Tahoe 26.2**에 **Thunderbolt 5 기반 RDMA** 기능이 새로 추가되어, MLX를 활용한 **분산 AI 추론** 등 저지연 통신이 가능해짐   
- 이는 **“Mac을 고속 분산 컴퓨팅 노드로 취급할 수 있게 만드는 것”** 으로, macOS가 단순한 데스크톱 OS를 넘어, **로컬 AI·HPC 실험 플랫폼**으로 확장이 가능해짐  
### RDMA란 무엇인가  
- **RDMA(Remote Direct Memory Access)** 는 한 컴퓨터가 다른 컴퓨터의 메모리에 **CPU 개입 없이 직접 접근**하는 통신 방식  
- 네트워크 스택, 커널 복사, 컨텍스트 스위칭을 우회해 **지연 시간(latency)을 극단적으로 줄이고 처리량을 크게 높임**  
- 주로 InfiniBand, RoCE 같은 데이터센터 네트워크에서 사용되어 왔음  
- 고성능 컴퓨팅(HPC), 분산 스토리지, 대규모 AI 학습·추론에서 표준적인 기술로 자리 잡음  
- 핵심은 **“네트워크 통신을 하는데도 마치 같은 메모리를 쓰는 것처럼 빠르게 동작”** 한다는 점  
  
### RDMA over Thunderbolt의 의미  
- macOS 26.2에서는 **Thunderbolt 5로 연결된 Mac들 사이에서 RDMA 통신을 지원**  
- 기존에는 RDMA가 서버급 네트워크 장비에 한정되었다면, 이제는 **케이블 하나로 연결한 로컬 Mac 클러스터에서도 가능**해진 셈  
- Thunderbolt의 높은 대역폭과 매우 낮은 지연 시간을 **RDMA 모델로 그대로 활용** 가능  
- 즉, **“책상 위 Mac 여러 대를 데이터센터처럼 묶는 통로”** 가 열린 것  
  
### 왜 AI 워크로드와 잘 맞는가  
- 분산 AI 추론이나 학습에서는 **노드 간 텐서 교환**이 병목이 되기 쉬움  
- RDMA는 이 과정에서 CPU를 소모하지 않고 **GPU ↔ GPU에 가까운 통신 패턴**을 제공  
- 릴리스 노트에 언급된 **MLX 기반 분산 AI 추론**은 이런 저지연·고대역 통신을 전제로 설계된 구조  
- 모델을 여러 Mac에 나눠 올리고, **단일 머신처럼 동작하는 추론 클러스터 구성** 가능성 확대  
- 소규모 팀이나 연구 환경에서 **“서버 없이 Mac으로 AI 클러스터 구성”** 하는 것이 현실적인 선택지가 됨  
  
### 실제로 가능해지는 사용 시나리오  
- Mac Studio / Mac Pro 여러 대를 Thunderbolt로 연결해 **로컬 AI 추론 팜 구성**  
- 대형 모델을 단일 GPU에 올리기 어려운 경우, **모델 분할 추론** 실험 가능  
- 로컬 분산 시뮬레이션, 고속 데이터 파이프라인, 실험적 분산 시스템 연구  
- 데이터센터 이전 단계에서의 **프로토타입·PoC 환경 구축 비용 대폭 절감**

## Comments


### Comment 47690

- Author: bus710
- Created: 2025-12-14T01:39:38+09:00
- Points: 1

썬볼 네트워킹이 정말 편하긴 하죠  
데이지체인이 되니 허브도 필요 없고

### Comment 47686

- Author: shakespeares
- Created: 2025-12-13T22:26:12+09:00
- Points: 1

이제 맥 기기들 연결해서 추론팜 만들어놓고 집에서 서비스 하시는 분들도 꽤 생기시겠네요.

### Comment 47680

- Author: xguru
- Created: 2025-12-13T15:47:35+09:00
- Points: 1

애플의 공식 릴리즈노트는 "RDMA over Thunderbolt"가 가능해졌다는 것 단 한 줄이어서, GN+로 추가 설명을 적은 것입니다.

### Comment 47679

- Author: neo
- Created: 2025-12-13T15:32:50+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46248644) 
- 나는 MLX 팀의 트위터를 팔로우하고 있음. 그들이 종종 두 대 이상의 Mac을 **연결해 512GB 이상의 RAM**이 필요한 모델을 돌리는 사례를 공유함  
  예를 들어 [Kimi K2 Thinking (1T 파라미터)](https://x.com/awnihannun/status/1986601104130646266)과 [DeepSeek R1 (671B)](https://x.com/awnihannun/status/1881915166922863045)가 있음. 후자는 [설정 가이드 Gist](https://gist.github.com/awni/ec071fd27940698edd14a4191855bba6)도 함께 제공됨
  - 이 게시물들은 **파이프라인 병렬화**를 사용한 예시임. N대의 머신이 있을 때 각 머신에 L/N개의 레이어를 분배하는 방식임. 속도 향상은 없지만, 단일 머신에 안 들어가는 큰 모델을 돌릴 수 있게 해줌  
    다가올 Tahoe 26.2 릴리스에서는 **텐서 병렬화**가 가능해질 예정임. 각 레이어를 여러 머신에 샤딩해 N대면 거의 N배 속도를 낼 수 있음. 다만 통신 지연(latency)이 주요 과제임
  - 지난주 **RDMA 기반 텐서 병렬 테스트**를 진행했음. [테스트 링크](https://x.com/anemll/status/1996349871260107102). 빠른 동기화(fast sync) 우회 방법도 언급됨
  - 비전문가에게는 이 방식이 그리 매력적이지 않기를 바람. 병렬 워크로드나 컨텍스트 처리에서는 성능이 잘 **스케일링되지 않음**  
    대신 로컬에서 LLM을 실험하려는 개인에게는 좋지만, 자금 많은 기업이 GPU 대신 이걸 대량으로 사갈 이유는 없을 것임
  - 가장 놀라운 건 **전력 소비량**임. 두 대 합쳐 약 50W라니, 내가 잘못 본 게 아닌지 의심됨

- $50,000 예산으로 **추론용 하드웨어**를 비교해봤음  
  * Apple M3 Ultra 클러스터 ($50k): 용량(3TB)을 극대화함. 3T+ 파라미터 모델(Kimi K2 등)을 돌릴 수 있는 유일한 옵션이지만 속도는 낮음 (~15 t/s)  
  * NVIDIA RTX 6000 워크스테이션 ($50k): 처리량(>80 t/s)을 극대화함. 학습과 추론 모두 우수하지만 VRAM이 384GB로 제한되어 400B 미만 모델만 가능함  
  * 동일한 용량(3TB)과 100 t/s 이상의 처리량을 모두 얻으려면 약 $270,000짜리 **NVIDIA GH200 클러스터**가 필요함. Apple 클러스터는 그 용량의 87%를 18%의 비용으로 제공함
  - 더 저렴하게도 가능함. 나는 $2,000짜리 **듀얼 소켓 Xeon 워크스테이션(768GB RAM)** 으로 DeepSeek-R1을 초당 1~2 토큰 속도로 돌리고 있음
  - $50k짜리 NVIDIA 클러스터 계산이 궁금함. RTX 6000이 대략 $8k라면 5대 정도로 40k에 반 TB쯤 가능함. 그래도 추론용으로는 Mac이 여전히 효율적이며, M5 Ultra는 더 나은 **가격 대비 성능**을 보여줄 듯함
  - 같은 예산으로 Framework 데스크탑 보드 25개(각 128GB VRAM, Strix Halo 탑재)를 살 수도 있음. 총 3TB VRAM이지만, 클러스터링은 꽤 도전적일 듯함
  - 아직 구현되지 않은 **병렬 속도 향상 기능**을 고려하면, 온프레미스 추론 환경에서는 꽤 괜찮은 거래처럼 보임
  - Apple은 **LPDDR5X**를 써서 에너지 효율과 비용을 낮추는 반면, NVIDIA는 **GDDR/HBM**으로 성능을 우선시함

- 요즘 **RAM 시장 혼란** 속에서도 Apple의 안정적인 공급망 덕분에, Apple 컴퓨팅이 중형 추론 클러스터 구축의 **가성비 좋은 선택지**로 자리 잡는다면 정말 아이러니할 것 같음
  - 상업용 사용자가 좋은 Mac을 다 사버리면 좀 곤란할 듯함
  - 이미 일부 용도에서는 그렇게 되고 있음

- 여러 대의 Mac Studio를 클러스터로 묶는다는 건데, **물리적·관리적 제약**이 걱정됨  
  1. 전원 버튼 위치가 애매해서 랙마운트 시 불편함  
  2. Thunderbolt는 주변기기용으로는 좋지만, **지속 연결용 인터커넥트**로는 포트 내구성이 걱정됨  
  3. 케이블 품질이 중요함. TB4/TB5는 고가 케이블 아니면 문제 많았음  
  4. macOS 원격 관리가 Linux보다 비효율적임. 예를 들어 macOS 26.1 → 26.2 업그레이드를 GUI 없이 하려면 어려움이 있음. `sudo softwareupdate -i -a`로는 마이너 업데이트만 가능함
  - #2 관련해서 OWC 도크에는 **케이블 고정용 나사홀**이 있음. [OWC Thunderbolt Dock](https://www.owc.com/solutions/thunderbolt-dock)과 [ClingOn 어댑터](https://eshop.macsales.com/item/OWC/CLINGON1PK/)로 포트 스트레스를 줄일 수 있음
  - 전원 버튼 문제는 [RackMac Studio 인클로저](https://www.sonnetstore.com/products/rackmac-studio)로 해결 가능함. 버튼을 기계적으로 연장해줌
  - Thunderbolt를 서버 인터커넥트로 쓰는 게 미적으로는 별로지만, 랙에 고정된 상태라면 오히려 **물리적 스트레스가 적음**  
  - **MDM 솔루션**을 쓰면 소프트웨어 업데이트뿐 아니라 LOM(원격 전원 관리)까지 가능함. 오픈소스 MDM도 존재함  
  - 아직 Mac Pro 랙마운트 버전도 판매 중이지만 M3 Ultra로는 업데이트되지 않아 곧 단종될 듯함

- Apple이 자체적으로 **M 시리즈 기반 클라우드**를 구축해, Metal을 AI용으로 강화하고, **프라이버시 중심의 셀프 호스팅 모델**을 제공하면 좋겠음. 민감 데이터가 많은 산업에서 큰 성공을 거둘 수 있을 것 같음
  - 이미 비슷한 개념의 [Private Cloud Compute](https://security.apple.com/blog/private-cloud-compute/)가 존재하지만, Apple 모델을 사용하는 iUser 전용임
  - 데이터센터에서는 GPU당 큰 메모리보다 **고속 인터커넥트 기반 샤딩**이 더 효율적임. NVIDIA나 AMD GPU가 여전히 계산 성능 면에서는 우위임

- AI 외의 **일반 분산 워크로드**에도 이 기능을 쓸 수 있는지 궁금함
  - HPL과 mpirun으로 테스트해봤는데, 아직 RDMA는 지원되지 않고 **Ring 방식**만 가능함. 다소 거칠지만 동작은 함  
    참고: [MLX 분산 사용 가이드](https://ml-explore.github.io/mlx/build/html/usage/distributed.html#getting-started-with-mpi)

- 관련 기사: [Engadget - macOS Tahoe 26.2에서 Mac 클러스터로 AI 슈퍼컴퓨터 구축](https://www.engadget.com/ai/you-can-turn-a-cluster-of-macs-into-an-ai-supercomputer-in-macos-tahoe-262-191500778.html)

- George Hotz가 **tinygrad를 이용해 USB4로 Mac에서 NVIDIA GPU를 구동**시켰음  
  [tinygrad 트윗](https://x.com/__tinygrad__/status/1980082660920918045)
  - [Linux를 구동 중인 2023 Mac Pro에서 NVIDIA 실행 예시](https://social.treehouse.systems/@janne/115509948515319437)도 있음

- RDMA가 뭔지 잘 모르겠는데, 여러 Mac을 연결해 **추론을 병렬로 실행**할 수 있다는 뜻인가? 그렇다면 정말 멋진 기능임
  - 이미 1년 전부터 여러 Mac에서 추론이 가능했지만, 이제 훨씬 **빠르게 동작**함