# Mac Studio에서 1.5TB VRAM 구축하기 - Thunderbolt 5 기반 RDMA

> Clean Markdown view of GeekNews topic #25195. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25195](https://news.hada.io/topic?id=25195)
- GeekNews Markdown: [https://news.hada.io/topic/25195.md](https://news.hada.io/topic/25195.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-19T23:33:15+09:00
- Updated: 2025-12-19T23:33:15+09:00
- Original source: [jeffgeerling.com](https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5)
- Points: 6
- Comments: 2

## Summary

**Thunderbolt 5 기반 RDMA**가 macOS 26.2에 도입되면서, 여러 대의 **Mac Studio를 하나의 거대한 메모리 풀처럼 묶는 실험**이 진행되었습니다. 오픈소스 툴 **Exo 1.0**을 이용해 1.5 TB 통합 메모리를 구성한 결과, RDMA 적용 시 메모리 접근 지연이 300 μs에서 50 μs 미만으로 줄어들며 대형 AI 모델 실행 속도가 크게 향상되었습니다. 다만 Thunderbolt 5의 스위치 부재와 macOS의 관리 제약으로 클러스터 운영 효율은 제한적이며, 안정성과 확장성 개선이 향후 과제로 남습니다.

## Topic Body

- macOS 26.2에 새로 추가된 **Thunderbolt 5 기반 RDMA(Remote Direct Memory Access)** 기능을 이용해 여러 Mac Studio를 하나의 거대한 메모리 풀처럼 동작시키는 실험  
- **Exo 1.0** 오픈소스 클러스터링 툴을 사용해 1.5TB 통합 메모리를 구성, 대형 AI 모델 실행 속도를 향상  
- **M3 Ultra Mac Studio**는 단일 노드에서도 높은 연산 성능과 효율성을 보이며, RDMA 적용 시 **메모리 접근 지연이 300μs에서 50μs 미만으로 감소**  
- Thunderbolt 5의 케이블 복잡성, 스위치 부재, macOS 관리 제약 등 **클러스터 운영상의 한계**도 존재  
- RDMA와 Exo의 결합은 **Mac 기반 AI·HPC 환경 확장 가능성**을 보여주지만, 안정성과 확장성은 아직 개선 필요  
  
---  
  
### RDMA over Thunderbolt 5 실험 개요  
- Apple이 제공한 Mac Studio 클러스터를 이용해 **macOS 26.2의 RDMA over Thunderbolt 기능**을 테스트  
  - RDMA는 여러 Mac이 하나의 대형 RAM처럼 동작하게 하여 대규모 AI 모델 처리 속도를 높임  
- 테스트에는 **Exo 1.0** 오픈소스 AI 클러스터링 툴이 사용됨  
- 총 1.5TB 통합 메모리를 구성한 Mac Studio 4대의 가격은 약 4만 달러 수준  
  
### Apple의 HPC 역사와 M3 Ultra의 위치  
- Apple의 HPC 관련 시도는 과거 **Xserve와 Xgrid** 시절 이후 거의 없었음  
- **M3 Ultra Mac Studio**는 로컬 AI 모델 실행에 적합한 성능을 보이며, RDMA 지원으로 **클러스터링 시 지연이 300μs에서 50μs 미만으로 감소**  
- 250W 이하의 전력으로 조용하게 동작하며, 소규모 과학 계산과 크리에이티브 작업에도 적합  
  
### 하드웨어 구성과 네트워킹  
- 하단 2대는 **512GB RAM / 32코어 CPU**, 상단 2대는 **256GB RAM** 구성  
- Thunderbolt 5를 통해 **50~60Gbps 실효 대역폭**을 제공하지만, **Thunderbolt 스위치 부재**로 각 Mac을 직접 상호 연결해야 함  
- QSFP 포트를 사용하는 **Nvidia DGX Spark**에 비해 네트워킹 안정성은 떨어짐  
- Thunderbolt 케이블 고정용 **ThunderLok-A**가 있으나, Mac Studio 본체 개조가 필요해 적용하지 않음  
  
### M3 Ultra Mac Studio 성능 벤치마크  
- **Geekbench**에서 Dell Pro Max(GB10) 및 AMD AI Max+ 395보다 단일·멀티코어 모두 우수  
- **FP64 HPL 벤치마크**에서 1 Tflop을 돌파, Nvidia GB10의 약 2배 성능  
- **대형 AI 모델 추론**에서도 우수하며, 동일 전력 대비 효율성이 높음  
- 단일 M3 Ultra가 Dell Pro Max 2노드 클러스터보다 성능·효율 모두 앞섬  
  
### 클러스터 관리와 macOS 제약  
- macOS는 **SSH로 시스템 업그레이드 불가**, GUI 조작 필요  
- **Screen Sharing**을 이용해 원격 관리 수행  
- Linux 대비 클러스터 관리 자동화가 어렵고, **MDM 도구 부재**로 불편함 존재  
  
### HPL 및 Llama.cpp 테스트  
- HPL 단일 노드 1.3 Tflops, 4노드 구성 시 3.7 Tflops로 약 3배 향상  
- Thunderbolt 기반 TCP 연결 시 **시스템 크래시 발생**, RDMA 미사용 상태에서는 불안정  
- **Llama.cpp** 테스트에서 Thunderbolt 5가 2.5Gbps Ethernet보다 낮은 지연을 보임  
  
### RDMA 활성화 및 Exo 1.0 테스트  
- RDMA 활성화 절차: 복구 모드 진입 → `rdma_ctl enable` 명령 실행 → 재부팅  
- **Exo 1.0**은 RDMA를 지원하는 유일한 툴로, **600GB 이상 모델(Kimi K2 Thinking 등)** 을 다중 Mac에 분산 실행 가능  
- **Llama.cpp**는 RPC 방식으로 모델 레이어를 분산하지만 비효율적  
- Exo는 노드 수 증가 시 성능이 향상되어, **Qwen3 235B 모델에서 초당 32 토큰 처리** 달성  
- **DeepSeek V3.1**과 **Kimi K2 Thinking(1조 파라미터)** 모델도 실행 성공  
  
### 안정성 문제와 오픈소스 이슈  
- 테스트는 **사전 배포(pre-release) 소프트웨어** 기반으로 진행되어 불안정성 존재  
- RDMA 작동 시 성능은 우수하지만, 실패 시 클러스터 전체 재부팅 필요  
- Exo 개발팀이 한동안 활동 중단 후 복귀했으며, **Apache 2.0 라이선스**로 공개  
- Apple과의 협업으로 인한 **비공개 개발 과정**에 대한 우려 언급  
  
### 향후 과제와 미해결 질문  
- **M5 Ultra** 출시 여부 및 머신러닝 성능 향상 가능성  
- **Mac Pro의 PCIe 확장성 복귀**를 통한 클러스터링 개선 필요성  
- **SMB Direct** 지원 시 고속 파일 공유 가능성  
- **Llama.cpp 등 타 소프트웨어의 RDMA 지원 확대** 기대  
  
### 결론  
- RDMA와 Exo 결합은 **Mac Studio의 AI·HPC 활용 가능성**을 크게 확장  
- 그러나 **Thunderbolt 5의 구조적 한계**와 macOS 관리 제약이 여전히 병목  
- QSFP 포트 도입 등 네트워크 확장성 개선이 필요  
- AI 열풍이 지나도 Mac Studio는 **조용하고 강력한 워크스테이션**으로서 가치 유지

## Comments



### Comment 48065

- Author: kaydash
- Created: 2025-12-21T08:57:09+09:00
- Points: 1

impala 생각나네요

### Comment 48029

- Author: neo
- Created: 2025-12-19T23:33:15+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46319657) 
- M5 Max/Ultra에 기대하는 점을 정리했음  
  DGX 수준의 **QSFP 링크(200Gb/s 이상)** 를 썬더볼트 대신 지원했으면 함. RDMA 구조가 멋지긴 하지만, 이 정도 속도가 아니면 경제성이 떨어짐  
  **Neural accelerator**로 프롬프트 prefill 시간을 줄이고 싶음. RTX 6000급까진 아니더라도 3090/4090 정도면 충분함  
  Mac Studio의 최고 사양 버전에는 1TB 통합 메모리를 기대함. 여러 장비보다 메모리를 늘리는 게 더 효율적이라 생각함  
  대역폭도 +1TB/s로 올려줬으면 함. 최근 3세대 동안 800GB/s에 머물러 있음  
  오버클럭 기능도 가능했으면 좋겠음. Mac Studio는 노트북이 아니니 600W 이상 소비해도 괜찮다고 생각함. 현재는 약 250W로 제한되어 있음  
  또, 이 RDMA 설정은 최대 4대의 Mac만 연결 가능함. 모든 Mac이 서로 직접 연결되어야 하기 때문임. 그래서 Apple이 QSFP 같은 고속 링크에 투자해야 한다고 봄
  - 1TB 메모리라니, 우리 같은 일반 사용자들이 살 수 있는 **RAM**은 좀 남겨둬야 하지 않겠음? “AI야, 인류를 행복하게 만들어줘!” 같은 느낌임
  - M4는 이미 채널당 필요한 속도를 달성했고, M5는 그 이상임. Ultra 버전이 나온다면 1TB/s 대역폭은 확실히 가능할 것임. Max는 Ultra의 절반이라 그 정도는 안 될 듯함
  - Mac Studio는 650W급 발열을 지속적으로 감당할 **열 설계**가 안 되어 있음. 이런 수준은 Mac Pro 디자인에서나 가능할 것임
  - M3 Ultra Mac Studio의 전면 USB-C 포트도 Thunderbolt 5라 총 6개 포트가 있음. [공식 스펙](https://www.apple.com/mac-studio/specs/)을 보면 4대 제한이 왜 필요한지 궁금함
  - Apple Neural Engine은 이미 INT8, FP16 연산을 지원함. 다만 AI 프레임워크들이 이를 제대로 활용하지 못하고 있음  
    그리고 모든 Mac을 완전 연결(mesh)해야 하는지도 의문임. Thunderbolt는 네트워크 인터페이스처럼 RDMA 위에서 동작하는 것 아닌가 싶음

- Apple이 왜 서버 클러스터용인 **RDMA** 같은 기능을 내놓으면서, 원격 관리나 랙마운트 같은 기본적인 품질 개선은 무시하는지 궁금함  
  내부적으로 M 시리즈 서버 제품을 쓰고 있고, 이런 기능이 그 부산물일 수도 있다고 생각함
  - 아마도 Apple이 진짜 **서버급 제품**을 준비 중이라, 서드파티 소프트웨어가 미리 대응하도록 RDMA를 선공개한 걸 수도 있음
  - Mac Studio는 LLM 추론용으로 독자적인 위치에 있음. RDMA는 일반 서버용이 아니라, 4대의 Studio를 묶어 **LLM 인퍼런싱 클러스터**로 쓰기 위한 기능이라 봄
  - 예전에 Apple이 **Private Compute** 기능을 위해 M2 Mac Pro를 랙에 쌓아 썼다는 얘기를 들었음
  - Apple이 자체 데이터센터를 운영하는지 궁금함. GCP에 대부분을 **아웃소싱**하는 줄 알았음
  - 예전부터 궁금했던 점임. 왜 개발용 **툴링**이 이렇게 빈약한지, Apple 내부에서는 어떤 환경을 쓰는지. Thunderbolt 케이블로 Mac Mini를 엮는 건 좀 답답함

- Jeff의 작업이 정말 멋짐. Thunderbolt 기반 RDMA 소식도 흥미로웠음  
  무엇보다 Jeff의 **긍정적인 에너지**와 꾸준한 기여에 감사함

- Linux는 RDMA를 지원하지만 아직 Thunderbolt에서는 불가능함. 이를 구현하려면 꽤 많은 작업이 필요할 듯함  
  저렴한 **Strix Halo 박스**(128GB DDR5-8000, USB4 2개)로 2~3대를 묶어 큰 모델을 돌릴 수 있다면 좋겠음

- 현재 Thunderbolt에는 **스위치**가 없어서 클러스터 크기가 제한됨  
  대신 RoCE(RDMA over Converged Ethernet)를 쓸 수 있을지 궁금함. RDMA가 TCP보다 7~10배 빠르다고 들었음  
  10G~80G Thunderbolt 이더넷 어댑터도 있지만, **지연 시간(latency)** 이 문제일 수 있음  
  PCIe 슬롯이 있었다면 Infiniband 카드만 꽂으면 끝인데, 결국 드라이버가 관건임
  - Thunderbolt를 PCIe로 변환해 일반 NIC을 쓰는 것도 가능함. Atto Thunderlink도 사실상 **Broadcom NIC**를 감싼 케이스임  
    Apple이 MLX5 드라이버를 iPadOS에까지 포함시킨 건 놀라움. [관련 블로그](https://kittenlabs.de/blog/2024/05/17/25gbit/s-on-macos-ios/) 참고
  - macOS에는 Mellanox ConnectX 카드용 드라이버가 포함되어 있지만, `ibv_devices`에 실제로 표시되는지는 모르겠음

- 입력(prefill) 속도와 출력(decode) 속도를 따로 측정한 데이터가 궁금함  
  Mac 하드웨어에서는 두 속도가 꽤 다르다는 내용이 [Exo의 글](https://blog.exolabs.net/nvidia-dgx-spark/)에 있었음
  - 관련 데이터는 [이 GitHub 이슈](https://github.com/geerlingguy/beowulf-ai-cluster/issues/17)에 일부 있음.  
    Exo 팀에 **벤치마크 기능** 추가를 제안해볼 생각임

- Thunderbolt 5가 생각보다 압도적이지 않다는 점이 흥미로웠음  
  2.5Gbps 이더넷 대비 TB5가 약 10% 빠른 정도였음. M3 Studio는 10Gbps 이더넷을 지원하지만 테스트되지 않았음  
  TB5는 모든 CPU가 서로 직접 연결되어야 해서 4대 제한이 있음. 반면 **이더넷 스위치**를 쓰면 더 많은 노드를 연결할 수 있음
  - [이 영상](https://www.youtube.com/watch?v=4l4UWZGxvoc)에서는 10Gbps 이더넷으로 테스트함
  - 과거 llama RPC 경험상 10G 이더넷은 속도 향상이 미미함. **지연 시간**이 더 중요하지만, 그마저도 한계가 있음
  - llama는 아직 최적화가 덜 되어 확장성이 낮았음. RDMA는 이더넷보다 **오버헤드가 낮음**

- 클러스터의 각 노드가 512GB RAM을 가짐. DeepSeek V3.1 모델은 700GB RAM이 필요함  
  한 노드에서 두 노드로 늘렸을 때 추론 속도가 32%만 향상된 게 의아함. 4노드에서도 50% 미만 향상임  
  뭔가 병목이 있는 듯함
  - 네트워크 대역폭이 80Gbps라서 그게 **병목**임. Infiniband는 그보다 10배 빠름
  - 모델의 **가중치(weights)** 는 읽기 전용이라 SSD에 메모리 매핑해도 됨. 진짜 제약은 **activation 메모리**임. MoE 구조가 도움이 될 수 있음
  - TB5 RDMA는 시스템 메모리 직접 접근보다 훨씬 느림

- 모든 노드가 서로 연결되는 구조가 SGI의 **NUMALink**를 떠올리게 함.  
  SGI 슈퍼컴퓨터는 각 노드가 다른 모든 노드와 두 개의 링크로 연결되어 있었음. 케이블은 많지만 프레이밍이나 혼잡 제어를 고민할 필요가 없었음
  - SGI 하드웨어는 **ccNUMA**(cache-coherent NUMA)를 구현했음. IRIX OS는 작업과 메모리를 물리적으로 가까운 곳으로 옮겨 **지연 시간**을 줄였음  
    오늘날 고빈도 트레이딩 시스템이 CPU 코어와 DIMM 위치를 고려해 프로세스를 배치하는 것도 같은 맥락임
  - NVL72 랙도 GPU 간에 수십 개의 링크를 연결해 비슷한 구조를 가짐

- 글에서 본 몇 가지 **흥미로운 디테일**이 마음에 들었음  
  Exo의 미스터리한 사라짐, Jeff가 Mac용 SMB Direct를 원한다는 점, M3 Ultra의 추론 속도, 그리고 $2100짜리 Framework AI 데스크톱 등  
  덕분에 새로운 **토끼굴(rabbit hole)** 을 발견한 기분임
