Mac Studio에서 1.5TB VRAM 구축하기 -

▲

GN⁺ 4달전 | parent | ★ favorite | on: Mac Studio에서 1.5TB VRAM 구축하기 - Thunderbolt 5 기반 RDMA(jeffgeerling.com)

Hacker News 의견들

M5 Max/Ultra에 기대하는 점을 정리했음
DGX 수준의 QSFP 링크(200Gb/s 이상) 를 썬더볼트 대신 지원했으면 함. RDMA 구조가 멋지긴 하지만, 이 정도 속도가 아니면 경제성이 떨어짐
Neural accelerator로 프롬프트 prefill 시간을 줄이고 싶음. RTX 6000급까진 아니더라도 3090/4090 정도면 충분함
Mac Studio의 최고 사양 버전에는 1TB 통합 메모리를 기대함. 여러 장비보다 메모리를 늘리는 게 더 효율적이라 생각함
대역폭도 +1TB/s로 올려줬으면 함. 최근 3세대 동안 800GB/s에 머물러 있음
오버클럭 기능도 가능했으면 좋겠음. Mac Studio는 노트북이 아니니 600W 이상 소비해도 괜찮다고 생각함. 현재는 약 250W로 제한되어 있음
또, 이 RDMA 설정은 최대 4대의 Mac만 연결 가능함. 모든 Mac이 서로 직접 연결되어야 하기 때문임. 그래서 Apple이 QSFP 같은 고속 링크에 투자해야 한다고 봄
- 1TB 메모리라니, 우리 같은 일반 사용자들이 살 수 있는 RAM은 좀 남겨둬야 하지 않겠음? “AI야, 인류를 행복하게 만들어줘!” 같은 느낌임
- M4는 이미 채널당 필요한 속도를 달성했고, M5는 그 이상임. Ultra 버전이 나온다면 1TB/s 대역폭은 확실히 가능할 것임. Max는 Ultra의 절반이라 그 정도는 안 될 듯함
- Mac Studio는 650W급 발열을 지속적으로 감당할 열 설계가 안 되어 있음. 이런 수준은 Mac Pro 디자인에서나 가능할 것임
- M3 Ultra Mac Studio의 전면 USB-C 포트도 Thunderbolt 5라 총 6개 포트가 있음. 공식 스펙을 보면 4대 제한이 왜 필요한지 궁금함
- Apple Neural Engine은 이미 INT8, FP16 연산을 지원함. 다만 AI 프레임워크들이 이를 제대로 활용하지 못하고 있음
  그리고 모든 Mac을 완전 연결(mesh)해야 하는지도 의문임. Thunderbolt는 네트워크 인터페이스처럼 RDMA 위에서 동작하는 것 아닌가 싶음
Apple이 왜 서버 클러스터용인 RDMA 같은 기능을 내놓으면서, 원격 관리나 랙마운트 같은 기본적인 품질 개선은 무시하는지 궁금함
내부적으로 M 시리즈 서버 제품을 쓰고 있고, 이런 기능이 그 부산물일 수도 있다고 생각함
- 아마도 Apple이 진짜 서버급 제품을 준비 중이라, 서드파티 소프트웨어가 미리 대응하도록 RDMA를 선공개한 걸 수도 있음
- Mac Studio는 LLM 추론용으로 독자적인 위치에 있음. RDMA는 일반 서버용이 아니라, 4대의 Studio를 묶어 LLM 인퍼런싱 클러스터로 쓰기 위한 기능이라 봄
- 예전에 Apple이 Private Compute 기능을 위해 M2 Mac Pro를 랙에 쌓아 썼다는 얘기를 들었음
- Apple이 자체 데이터센터를 운영하는지 궁금함. GCP에 대부분을 아웃소싱하는 줄 알았음
- 예전부터 궁금했던 점임. 왜 개발용 툴링이 이렇게 빈약한지, Apple 내부에서는 어떤 환경을 쓰는지. Thunderbolt 케이블로 Mac Mini를 엮는 건 좀 답답함
Jeff의 작업이 정말 멋짐. Thunderbolt 기반 RDMA 소식도 흥미로웠음
무엇보다 Jeff의 긍정적인 에너지와 꾸준한 기여에 감사함
Linux는 RDMA를 지원하지만 아직 Thunderbolt에서는 불가능함. 이를 구현하려면 꽤 많은 작업이 필요할 듯함
저렴한 Strix Halo 박스(128GB DDR5-8000, USB4 2개)로 2~3대를 묶어 큰 모델을 돌릴 수 있다면 좋겠음
현재 Thunderbolt에는 스위치가 없어서 클러스터 크기가 제한됨
대신 RoCE(RDMA over Converged Ethernet)를 쓸 수 있을지 궁금함. RDMA가 TCP보다 7~10배 빠르다고 들었음
10G~80G Thunderbolt 이더넷 어댑터도 있지만, 지연 시간(latency) 이 문제일 수 있음
PCIe 슬롯이 있었다면 Infiniband 카드만 꽂으면 끝인데, 결국 드라이버가 관건임
- Thunderbolt를 PCIe로 변환해 일반 NIC을 쓰는 것도 가능함. Atto Thunderlink도 사실상 Broadcom NIC를 감싼 케이스임
  Apple이 MLX5 드라이버를 iPadOS에까지 포함시킨 건 놀라움. 관련 블로그 참고
- macOS에는 Mellanox ConnectX 카드용 드라이버가 포함되어 있지만, ibv_devices에 실제로 표시되는지는 모르겠음
입력(prefill) 속도와 출력(decode) 속도를 따로 측정한 데이터가 궁금함
Mac 하드웨어에서는 두 속도가 꽤 다르다는 내용이 Exo의 글에 있었음
- 관련 데이터는 이 GitHub 이슈에 일부 있음.
  Exo 팀에 벤치마크 기능 추가를 제안해볼 생각임
Thunderbolt 5가 생각보다 압도적이지 않다는 점이 흥미로웠음
2.5Gbps 이더넷 대비 TB5가 약 10% 빠른 정도였음. M3 Studio는 10Gbps 이더넷을 지원하지만 테스트되지 않았음
TB5는 모든 CPU가 서로 직접 연결되어야 해서 4대 제한이 있음. 반면 이더넷 스위치를 쓰면 더 많은 노드를 연결할 수 있음
- 이 영상에서는 10Gbps 이더넷으로 테스트함
- 과거 llama RPC 경험상 10G 이더넷은 속도 향상이 미미함. 지연 시간이 더 중요하지만, 그마저도 한계가 있음
- llama는 아직 최적화가 덜 되어 확장성이 낮았음. RDMA는 이더넷보다 오버헤드가 낮음
클러스터의 각 노드가 512GB RAM을 가짐. DeepSeek V3.1 모델은 700GB RAM이 필요함
한 노드에서 두 노드로 늘렸을 때 추론 속도가 32%만 향상된 게 의아함. 4노드에서도 50% 미만 향상임
뭔가 병목이 있는 듯함
- 네트워크 대역폭이 80Gbps라서 그게 병목임. Infiniband는 그보다 10배 빠름
- 모델의 가중치(weights) 는 읽기 전용이라 SSD에 메모리 매핑해도 됨. 진짜 제약은 activation 메모리임. MoE 구조가 도움이 될 수 있음
- TB5 RDMA는 시스템 메모리 직접 접근보다 훨씬 느림
모든 노드가 서로 연결되는 구조가 SGI의 NUMALink를 떠올리게 함.
SGI 슈퍼컴퓨터는 각 노드가 다른 모든 노드와 두 개의 링크로 연결되어 있었음. 케이블은 많지만 프레이밍이나 혼잡 제어를 고민할 필요가 없었음
- SGI 하드웨어는 ccNUMA(cache-coherent NUMA)를 구현했음. IRIX OS는 작업과 메모리를 물리적으로 가까운 곳으로 옮겨 지연 시간을 줄였음
  오늘날 고빈도 트레이딩 시스템이 CPU 코어와 DIMM 위치를 고려해 프로세스를 배치하는 것도 같은 맥락임
- NVL72 랙도 GPU 간에 수십 개의 링크를 연결해 비슷한 구조를 가짐
글에서 본 몇 가지 흥미로운 디테일이 마음에 들었음
Exo의 미스터리한 사라짐, Jeff가 Mac용 SMB Direct를 원한다는 점, M3 Ultra의 추론 속도, 그리고 $2100짜리 Framework AI 데스크톱 등
덕분에 새로운 토끼굴(rabbit hole) 을 발견한 기분임