1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • macOS 26.2에 새로 추가된 Thunderbolt 5 기반 RDMA(Remote Direct Memory Access) 기능을 이용해 여러 Mac Studio를 하나의 거대한 메모리 풀처럼 동작시키는 실험
  • Exo 1.0 오픈소스 클러스터링 툴을 사용해 1.5TB 통합 메모리를 구성, 대형 AI 모델 실행 속도를 향상
  • M3 Ultra Mac Studio는 단일 노드에서도 높은 연산 성능과 효율성을 보이며, RDMA 적용 시 메모리 접근 지연이 300μs에서 50μs 미만으로 감소
  • Thunderbolt 5의 케이블 복잡성, 스위치 부재, macOS 관리 제약 등 클러스터 운영상의 한계도 존재
  • RDMA와 Exo의 결합은 Mac 기반 AI·HPC 환경 확장 가능성을 보여주지만, 안정성과 확장성은 아직 개선 필요

RDMA over Thunderbolt 5 실험 개요

  • Apple이 제공한 Mac Studio 클러스터를 이용해 macOS 26.2의 RDMA over Thunderbolt 기능을 테스트
    • RDMA는 여러 Mac이 하나의 대형 RAM처럼 동작하게 하여 대규모 AI 모델 처리 속도를 높임
  • 테스트에는 Exo 1.0 오픈소스 AI 클러스터링 툴이 사용됨
  • 총 1.5TB 통합 메모리를 구성한 Mac Studio 4대의 가격은 약 4만 달러 수준

Apple의 HPC 역사와 M3 Ultra의 위치

  • Apple의 HPC 관련 시도는 과거 Xserve와 Xgrid 시절 이후 거의 없었음
  • M3 Ultra Mac Studio는 로컬 AI 모델 실행에 적합한 성능을 보이며, RDMA 지원으로 클러스터링 시 지연이 300μs에서 50μs 미만으로 감소
  • 250W 이하의 전력으로 조용하게 동작하며, 소규모 과학 계산과 크리에이티브 작업에도 적합

하드웨어 구성과 네트워킹

  • 하단 2대는 512GB RAM / 32코어 CPU, 상단 2대는 256GB RAM 구성
  • Thunderbolt 5를 통해 50~60Gbps 실효 대역폭을 제공하지만, Thunderbolt 스위치 부재로 각 Mac을 직접 상호 연결해야 함
  • QSFP 포트를 사용하는 Nvidia DGX Spark에 비해 네트워킹 안정성은 떨어짐
  • Thunderbolt 케이블 고정용 ThunderLok-A가 있으나, Mac Studio 본체 개조가 필요해 적용하지 않음

M3 Ultra Mac Studio 성능 벤치마크

  • Geekbench에서 Dell Pro Max(GB10) 및 AMD AI Max+ 395보다 단일·멀티코어 모두 우수
  • FP64 HPL 벤치마크에서 1 Tflop을 돌파, Nvidia GB10의 약 2배 성능
  • 대형 AI 모델 추론에서도 우수하며, 동일 전력 대비 효율성이 높음
  • 단일 M3 Ultra가 Dell Pro Max 2노드 클러스터보다 성능·효율 모두 앞섬

클러스터 관리와 macOS 제약

  • macOS는 SSH로 시스템 업그레이드 불가, GUI 조작 필요
  • Screen Sharing을 이용해 원격 관리 수행
  • Linux 대비 클러스터 관리 자동화가 어렵고, MDM 도구 부재로 불편함 존재

HPL 및 Llama.cpp 테스트

  • HPL 단일 노드 1.3 Tflops, 4노드 구성 시 3.7 Tflops로 약 3배 향상
  • Thunderbolt 기반 TCP 연결 시 시스템 크래시 발생, RDMA 미사용 상태에서는 불안정
  • Llama.cpp 테스트에서 Thunderbolt 5가 2.5Gbps Ethernet보다 낮은 지연을 보임

RDMA 활성화 및 Exo 1.0 테스트

  • RDMA 활성화 절차: 복구 모드 진입 → rdma_ctl enable 명령 실행 → 재부팅
  • Exo 1.0은 RDMA를 지원하는 유일한 툴로, 600GB 이상 모델(Kimi K2 Thinking 등) 을 다중 Mac에 분산 실행 가능
  • Llama.cpp는 RPC 방식으로 모델 레이어를 분산하지만 비효율적
  • Exo는 노드 수 증가 시 성능이 향상되어, Qwen3 235B 모델에서 초당 32 토큰 처리 달성
  • DeepSeek V3.1Kimi K2 Thinking(1조 파라미터) 모델도 실행 성공

안정성 문제와 오픈소스 이슈

  • 테스트는 사전 배포(pre-release) 소프트웨어 기반으로 진행되어 불안정성 존재
  • RDMA 작동 시 성능은 우수하지만, 실패 시 클러스터 전체 재부팅 필요
  • Exo 개발팀이 한동안 활동 중단 후 복귀했으며, Apache 2.0 라이선스로 공개
  • Apple과의 협업으로 인한 비공개 개발 과정에 대한 우려 언급

향후 과제와 미해결 질문

  • M5 Ultra 출시 여부 및 머신러닝 성능 향상 가능성
  • Mac Pro의 PCIe 확장성 복귀를 통한 클러스터링 개선 필요성
  • SMB Direct 지원 시 고속 파일 공유 가능성
  • Llama.cpp 등 타 소프트웨어의 RDMA 지원 확대 기대

결론

  • RDMA와 Exo 결합은 Mac Studio의 AI·HPC 활용 가능성을 크게 확장
  • 그러나 Thunderbolt 5의 구조적 한계와 macOS 관리 제약이 여전히 병목
  • QSFP 포트 도입 등 네트워크 확장성 개선이 필요
  • AI 열풍이 지나도 Mac Studio는 조용하고 강력한 워크스테이션으로서 가치 유지
Hacker News 의견들
  • M5 Max/Ultra에 기대하는 점을 정리했음
    DGX 수준의 QSFP 링크(200Gb/s 이상) 를 썬더볼트 대신 지원했으면 함. RDMA 구조가 멋지긴 하지만, 이 정도 속도가 아니면 경제성이 떨어짐
    Neural accelerator로 프롬프트 prefill 시간을 줄이고 싶음. RTX 6000급까진 아니더라도 3090/4090 정도면 충분함
    Mac Studio의 최고 사양 버전에는 1TB 통합 메모리를 기대함. 여러 장비보다 메모리를 늘리는 게 더 효율적이라 생각함
    대역폭도 +1TB/s로 올려줬으면 함. 최근 3세대 동안 800GB/s에 머물러 있음
    오버클럭 기능도 가능했으면 좋겠음. Mac Studio는 노트북이 아니니 600W 이상 소비해도 괜찮다고 생각함. 현재는 약 250W로 제한되어 있음
    또, 이 RDMA 설정은 최대 4대의 Mac만 연결 가능함. 모든 Mac이 서로 직접 연결되어야 하기 때문임. 그래서 Apple이 QSFP 같은 고속 링크에 투자해야 한다고 봄

    • 1TB 메모리라니, 우리 같은 일반 사용자들이 살 수 있는 RAM은 좀 남겨둬야 하지 않겠음? “AI야, 인류를 행복하게 만들어줘!” 같은 느낌임
    • M4는 이미 채널당 필요한 속도를 달성했고, M5는 그 이상임. Ultra 버전이 나온다면 1TB/s 대역폭은 확실히 가능할 것임. Max는 Ultra의 절반이라 그 정도는 안 될 듯함
    • Mac Studio는 650W급 발열을 지속적으로 감당할 열 설계가 안 되어 있음. 이런 수준은 Mac Pro 디자인에서나 가능할 것임
    • M3 Ultra Mac Studio의 전면 USB-C 포트도 Thunderbolt 5라 총 6개 포트가 있음. 공식 스펙을 보면 4대 제한이 왜 필요한지 궁금함
    • Apple Neural Engine은 이미 INT8, FP16 연산을 지원함. 다만 AI 프레임워크들이 이를 제대로 활용하지 못하고 있음
      그리고 모든 Mac을 완전 연결(mesh)해야 하는지도 의문임. Thunderbolt는 네트워크 인터페이스처럼 RDMA 위에서 동작하는 것 아닌가 싶음
  • Apple이 왜 서버 클러스터용인 RDMA 같은 기능을 내놓으면서, 원격 관리나 랙마운트 같은 기본적인 품질 개선은 무시하는지 궁금함
    내부적으로 M 시리즈 서버 제품을 쓰고 있고, 이런 기능이 그 부산물일 수도 있다고 생각함

    • 아마도 Apple이 진짜 서버급 제품을 준비 중이라, 서드파티 소프트웨어가 미리 대응하도록 RDMA를 선공개한 걸 수도 있음
    • Mac Studio는 LLM 추론용으로 독자적인 위치에 있음. RDMA는 일반 서버용이 아니라, 4대의 Studio를 묶어 LLM 인퍼런싱 클러스터로 쓰기 위한 기능이라 봄
    • 예전에 Apple이 Private Compute 기능을 위해 M2 Mac Pro를 랙에 쌓아 썼다는 얘기를 들었음
    • Apple이 자체 데이터센터를 운영하는지 궁금함. GCP에 대부분을 아웃소싱하는 줄 알았음
    • 예전부터 궁금했던 점임. 왜 개발용 툴링이 이렇게 빈약한지, Apple 내부에서는 어떤 환경을 쓰는지. Thunderbolt 케이블로 Mac Mini를 엮는 건 좀 답답함
  • Jeff의 작업이 정말 멋짐. Thunderbolt 기반 RDMA 소식도 흥미로웠음
    무엇보다 Jeff의 긍정적인 에너지와 꾸준한 기여에 감사함

  • Linux는 RDMA를 지원하지만 아직 Thunderbolt에서는 불가능함. 이를 구현하려면 꽤 많은 작업이 필요할 듯함
    저렴한 Strix Halo 박스(128GB DDR5-8000, USB4 2개)로 2~3대를 묶어 큰 모델을 돌릴 수 있다면 좋겠음

  • 현재 Thunderbolt에는 스위치가 없어서 클러스터 크기가 제한됨
    대신 RoCE(RDMA over Converged Ethernet)를 쓸 수 있을지 궁금함. RDMA가 TCP보다 7~10배 빠르다고 들었음
    10G~80G Thunderbolt 이더넷 어댑터도 있지만, 지연 시간(latency) 이 문제일 수 있음
    PCIe 슬롯이 있었다면 Infiniband 카드만 꽂으면 끝인데, 결국 드라이버가 관건임

    • Thunderbolt를 PCIe로 변환해 일반 NIC을 쓰는 것도 가능함. Atto Thunderlink도 사실상 Broadcom NIC를 감싼 케이스임
      Apple이 MLX5 드라이버를 iPadOS에까지 포함시킨 건 놀라움. 관련 블로그 참고
    • macOS에는 Mellanox ConnectX 카드용 드라이버가 포함되어 있지만, ibv_devices에 실제로 표시되는지는 모르겠음
  • 입력(prefill) 속도와 출력(decode) 속도를 따로 측정한 데이터가 궁금함
    Mac 하드웨어에서는 두 속도가 꽤 다르다는 내용이 Exo의 글에 있었음

    • 관련 데이터는 이 GitHub 이슈에 일부 있음.
      Exo 팀에 벤치마크 기능 추가를 제안해볼 생각임
  • Thunderbolt 5가 생각보다 압도적이지 않다는 점이 흥미로웠음
    2.5Gbps 이더넷 대비 TB5가 약 10% 빠른 정도였음. M3 Studio는 10Gbps 이더넷을 지원하지만 테스트되지 않았음
    TB5는 모든 CPU가 서로 직접 연결되어야 해서 4대 제한이 있음. 반면 이더넷 스위치를 쓰면 더 많은 노드를 연결할 수 있음

    • 이 영상에서는 10Gbps 이더넷으로 테스트함
    • 과거 llama RPC 경험상 10G 이더넷은 속도 향상이 미미함. 지연 시간이 더 중요하지만, 그마저도 한계가 있음
    • llama는 아직 최적화가 덜 되어 확장성이 낮았음. RDMA는 이더넷보다 오버헤드가 낮음
  • 클러스터의 각 노드가 512GB RAM을 가짐. DeepSeek V3.1 모델은 700GB RAM이 필요함
    한 노드에서 두 노드로 늘렸을 때 추론 속도가 32%만 향상된 게 의아함. 4노드에서도 50% 미만 향상임
    뭔가 병목이 있는 듯함

    • 네트워크 대역폭이 80Gbps라서 그게 병목임. Infiniband는 그보다 10배 빠름
    • 모델의 가중치(weights) 는 읽기 전용이라 SSD에 메모리 매핑해도 됨. 진짜 제약은 activation 메모리임. MoE 구조가 도움이 될 수 있음
    • TB5 RDMA는 시스템 메모리 직접 접근보다 훨씬 느림
  • 모든 노드가 서로 연결되는 구조가 SGI의 NUMALink를 떠올리게 함.
    SGI 슈퍼컴퓨터는 각 노드가 다른 모든 노드와 두 개의 링크로 연결되어 있었음. 케이블은 많지만 프레이밍이나 혼잡 제어를 고민할 필요가 없었음

    • SGI 하드웨어는 ccNUMA(cache-coherent NUMA)를 구현했음. IRIX OS는 작업과 메모리를 물리적으로 가까운 곳으로 옮겨 지연 시간을 줄였음
      오늘날 고빈도 트레이딩 시스템이 CPU 코어와 DIMM 위치를 고려해 프로세스를 배치하는 것도 같은 맥락임
    • NVL72 랙도 GPU 간에 수십 개의 링크를 연결해 비슷한 구조를 가짐
  • 글에서 본 몇 가지 흥미로운 디테일이 마음에 들었음
    Exo의 미스터리한 사라짐, Jeff가 Mac용 SMB Direct를 원한다는 점, M3 Ultra의 추론 속도, 그리고 $2100짜리 Framework AI 데스크톱 등
    덕분에 새로운 토끼굴(rabbit hole) 을 발견한 기분임