M5 Max/Ultra에 기대하는 점을 정리했음
DGX 수준의 QSFP 링크(200Gb/s 이상) 를 썬더볼트 대신 지원했으면 함. RDMA 구조가 멋지긴 하지만, 이 정도 속도가 아니면 경제성이 떨어짐 Neural accelerator로 프롬프트 prefill 시간을 줄이고 싶음. RTX 6000급까진 아니더라도 3090/4090 정도면 충분함
Mac Studio의 최고 사양 버전에는 1TB 통합 메모리를 기대함. 여러 장비보다 메모리를 늘리는 게 더 효율적이라 생각함
대역폭도 +1TB/s로 올려줬으면 함. 최근 3세대 동안 800GB/s에 머물러 있음
오버클럭 기능도 가능했으면 좋겠음. Mac Studio는 노트북이 아니니 600W 이상 소비해도 괜찮다고 생각함. 현재는 약 250W로 제한되어 있음
또, 이 RDMA 설정은 최대 4대의 Mac만 연결 가능함. 모든 Mac이 서로 직접 연결되어야 하기 때문임. 그래서 Apple이 QSFP 같은 고속 링크에 투자해야 한다고 봄
1TB 메모리라니, 우리 같은 일반 사용자들이 살 수 있는 RAM은 좀 남겨둬야 하지 않겠음? “AI야, 인류를 행복하게 만들어줘!” 같은 느낌임
M4는 이미 채널당 필요한 속도를 달성했고, M5는 그 이상임. Ultra 버전이 나온다면 1TB/s 대역폭은 확실히 가능할 것임. Max는 Ultra의 절반이라 그 정도는 안 될 듯함
Mac Studio는 650W급 발열을 지속적으로 감당할 열 설계가 안 되어 있음. 이런 수준은 Mac Pro 디자인에서나 가능할 것임
M3 Ultra Mac Studio의 전면 USB-C 포트도 Thunderbolt 5라 총 6개 포트가 있음. 공식 스펙을 보면 4대 제한이 왜 필요한지 궁금함
Apple Neural Engine은 이미 INT8, FP16 연산을 지원함. 다만 AI 프레임워크들이 이를 제대로 활용하지 못하고 있음
그리고 모든 Mac을 완전 연결(mesh)해야 하는지도 의문임. Thunderbolt는 네트워크 인터페이스처럼 RDMA 위에서 동작하는 것 아닌가 싶음
Apple이 왜 서버 클러스터용인 RDMA 같은 기능을 내놓으면서, 원격 관리나 랙마운트 같은 기본적인 품질 개선은 무시하는지 궁금함
내부적으로 M 시리즈 서버 제품을 쓰고 있고, 이런 기능이 그 부산물일 수도 있다고 생각함
아마도 Apple이 진짜 서버급 제품을 준비 중이라, 서드파티 소프트웨어가 미리 대응하도록 RDMA를 선공개한 걸 수도 있음
Mac Studio는 LLM 추론용으로 독자적인 위치에 있음. RDMA는 일반 서버용이 아니라, 4대의 Studio를 묶어 LLM 인퍼런싱 클러스터로 쓰기 위한 기능이라 봄
예전에 Apple이 Private Compute 기능을 위해 M2 Mac Pro를 랙에 쌓아 썼다는 얘기를 들었음
Apple이 자체 데이터센터를 운영하는지 궁금함. GCP에 대부분을 아웃소싱하는 줄 알았음
예전부터 궁금했던 점임. 왜 개발용 툴링이 이렇게 빈약한지, Apple 내부에서는 어떤 환경을 쓰는지. Thunderbolt 케이블로 Mac Mini를 엮는 건 좀 답답함
Jeff의 작업이 정말 멋짐. Thunderbolt 기반 RDMA 소식도 흥미로웠음
무엇보다 Jeff의 긍정적인 에너지와 꾸준한 기여에 감사함
Linux는 RDMA를 지원하지만 아직 Thunderbolt에서는 불가능함. 이를 구현하려면 꽤 많은 작업이 필요할 듯함
저렴한 Strix Halo 박스(128GB DDR5-8000, USB4 2개)로 2~3대를 묶어 큰 모델을 돌릴 수 있다면 좋겠음
현재 Thunderbolt에는 스위치가 없어서 클러스터 크기가 제한됨
대신 RoCE(RDMA over Converged Ethernet)를 쓸 수 있을지 궁금함. RDMA가 TCP보다 7~10배 빠르다고 들었음
10G~80G Thunderbolt 이더넷 어댑터도 있지만, 지연 시간(latency) 이 문제일 수 있음
PCIe 슬롯이 있었다면 Infiniband 카드만 꽂으면 끝인데, 결국 드라이버가 관건임
Thunderbolt를 PCIe로 변환해 일반 NIC을 쓰는 것도 가능함. Atto Thunderlink도 사실상 Broadcom NIC를 감싼 케이스임
Apple이 MLX5 드라이버를 iPadOS에까지 포함시킨 건 놀라움. 관련 블로그 참고
macOS에는 Mellanox ConnectX 카드용 드라이버가 포함되어 있지만, ibv_devices에 실제로 표시되는지는 모르겠음
입력(prefill) 속도와 출력(decode) 속도를 따로 측정한 데이터가 궁금함
Mac 하드웨어에서는 두 속도가 꽤 다르다는 내용이 Exo의 글에 있었음
관련 데이터는 이 GitHub 이슈에 일부 있음.
Exo 팀에 벤치마크 기능 추가를 제안해볼 생각임
Thunderbolt 5가 생각보다 압도적이지 않다는 점이 흥미로웠음
2.5Gbps 이더넷 대비 TB5가 약 10% 빠른 정도였음. M3 Studio는 10Gbps 이더넷을 지원하지만 테스트되지 않았음
TB5는 모든 CPU가 서로 직접 연결되어야 해서 4대 제한이 있음. 반면 이더넷 스위치를 쓰면 더 많은 노드를 연결할 수 있음
과거 llama RPC 경험상 10G 이더넷은 속도 향상이 미미함. 지연 시간이 더 중요하지만, 그마저도 한계가 있음
llama는 아직 최적화가 덜 되어 확장성이 낮았음. RDMA는 이더넷보다 오버헤드가 낮음
클러스터의 각 노드가 512GB RAM을 가짐. DeepSeek V3.1 모델은 700GB RAM이 필요함
한 노드에서 두 노드로 늘렸을 때 추론 속도가 32%만 향상된 게 의아함. 4노드에서도 50% 미만 향상임
뭔가 병목이 있는 듯함
네트워크 대역폭이 80Gbps라서 그게 병목임. Infiniband는 그보다 10배 빠름
모델의 가중치(weights) 는 읽기 전용이라 SSD에 메모리 매핑해도 됨. 진짜 제약은 activation 메모리임. MoE 구조가 도움이 될 수 있음
TB5 RDMA는 시스템 메모리 직접 접근보다 훨씬 느림
모든 노드가 서로 연결되는 구조가 SGI의 NUMALink를 떠올리게 함.
SGI 슈퍼컴퓨터는 각 노드가 다른 모든 노드와 두 개의 링크로 연결되어 있었음. 케이블은 많지만 프레이밍이나 혼잡 제어를 고민할 필요가 없었음
SGI 하드웨어는 ccNUMA(cache-coherent NUMA)를 구현했음. IRIX OS는 작업과 메모리를 물리적으로 가까운 곳으로 옮겨 지연 시간을 줄였음
오늘날 고빈도 트레이딩 시스템이 CPU 코어와 DIMM 위치를 고려해 프로세스를 배치하는 것도 같은 맥락임
NVL72 랙도 GPU 간에 수십 개의 링크를 연결해 비슷한 구조를 가짐
글에서 본 몇 가지 흥미로운 디테일이 마음에 들었음
Exo의 미스터리한 사라짐, Jeff가 Mac용 SMB Direct를 원한다는 점, M3 Ultra의 추론 속도, 그리고 $2100짜리 Framework AI 데스크톱 등
덕분에 새로운 토끼굴(rabbit hole) 을 발견한 기분임
Hacker News 의견들
M5 Max/Ultra에 기대하는 점을 정리했음
DGX 수준의 QSFP 링크(200Gb/s 이상) 를 썬더볼트 대신 지원했으면 함. RDMA 구조가 멋지긴 하지만, 이 정도 속도가 아니면 경제성이 떨어짐
Neural accelerator로 프롬프트 prefill 시간을 줄이고 싶음. RTX 6000급까진 아니더라도 3090/4090 정도면 충분함
Mac Studio의 최고 사양 버전에는 1TB 통합 메모리를 기대함. 여러 장비보다 메모리를 늘리는 게 더 효율적이라 생각함
대역폭도 +1TB/s로 올려줬으면 함. 최근 3세대 동안 800GB/s에 머물러 있음
오버클럭 기능도 가능했으면 좋겠음. Mac Studio는 노트북이 아니니 600W 이상 소비해도 괜찮다고 생각함. 현재는 약 250W로 제한되어 있음
또, 이 RDMA 설정은 최대 4대의 Mac만 연결 가능함. 모든 Mac이 서로 직접 연결되어야 하기 때문임. 그래서 Apple이 QSFP 같은 고속 링크에 투자해야 한다고 봄
그리고 모든 Mac을 완전 연결(mesh)해야 하는지도 의문임. Thunderbolt는 네트워크 인터페이스처럼 RDMA 위에서 동작하는 것 아닌가 싶음
Apple이 왜 서버 클러스터용인 RDMA 같은 기능을 내놓으면서, 원격 관리나 랙마운트 같은 기본적인 품질 개선은 무시하는지 궁금함
내부적으로 M 시리즈 서버 제품을 쓰고 있고, 이런 기능이 그 부산물일 수도 있다고 생각함
Jeff의 작업이 정말 멋짐. Thunderbolt 기반 RDMA 소식도 흥미로웠음
무엇보다 Jeff의 긍정적인 에너지와 꾸준한 기여에 감사함
Linux는 RDMA를 지원하지만 아직 Thunderbolt에서는 불가능함. 이를 구현하려면 꽤 많은 작업이 필요할 듯함
저렴한 Strix Halo 박스(128GB DDR5-8000, USB4 2개)로 2~3대를 묶어 큰 모델을 돌릴 수 있다면 좋겠음
현재 Thunderbolt에는 스위치가 없어서 클러스터 크기가 제한됨
대신 RoCE(RDMA over Converged Ethernet)를 쓸 수 있을지 궁금함. RDMA가 TCP보다 7~10배 빠르다고 들었음
10G~80G Thunderbolt 이더넷 어댑터도 있지만, 지연 시간(latency) 이 문제일 수 있음
PCIe 슬롯이 있었다면 Infiniband 카드만 꽂으면 끝인데, 결국 드라이버가 관건임
Apple이 MLX5 드라이버를 iPadOS에까지 포함시킨 건 놀라움. 관련 블로그 참고
ibv_devices에 실제로 표시되는지는 모르겠음입력(prefill) 속도와 출력(decode) 속도를 따로 측정한 데이터가 궁금함
Mac 하드웨어에서는 두 속도가 꽤 다르다는 내용이 Exo의 글에 있었음
Exo 팀에 벤치마크 기능 추가를 제안해볼 생각임
Thunderbolt 5가 생각보다 압도적이지 않다는 점이 흥미로웠음
2.5Gbps 이더넷 대비 TB5가 약 10% 빠른 정도였음. M3 Studio는 10Gbps 이더넷을 지원하지만 테스트되지 않았음
TB5는 모든 CPU가 서로 직접 연결되어야 해서 4대 제한이 있음. 반면 이더넷 스위치를 쓰면 더 많은 노드를 연결할 수 있음
클러스터의 각 노드가 512GB RAM을 가짐. DeepSeek V3.1 모델은 700GB RAM이 필요함
한 노드에서 두 노드로 늘렸을 때 추론 속도가 32%만 향상된 게 의아함. 4노드에서도 50% 미만 향상임
뭔가 병목이 있는 듯함
모든 노드가 서로 연결되는 구조가 SGI의 NUMALink를 떠올리게 함.
SGI 슈퍼컴퓨터는 각 노드가 다른 모든 노드와 두 개의 링크로 연결되어 있었음. 케이블은 많지만 프레이밍이나 혼잡 제어를 고민할 필요가 없었음
오늘날 고빈도 트레이딩 시스템이 CPU 코어와 DIMM 위치를 고려해 프로세스를 배치하는 것도 같은 맥락임
글에서 본 몇 가지 흥미로운 디테일이 마음에 들었음
Exo의 미스터리한 사라짐, Jeff가 Mac용 SMB Direct를 원한다는 점, M3 Ultra의 추론 속도, 그리고 $2100짜리 Framework AI 데스크톱 등
덕분에 새로운 토끼굴(rabbit hole) 을 발견한 기분임