6P by popopo 2달전 | ★ favorite | 댓글 9개

Nvidia DGX Spark 를 보고, GB10 에 큰 기대를 했는데, 리뷰를 보니 실망이 더 많네요. 메모리 대역폭이 다른 성능의 발목을 잡는듯 합니다.

AMD Strix Halo 랑 성능이 비슷하게 나오거나 더 낫게 나오는 경우도 있었습니다.

  • (통합 메모리 64GB로 나오지만 옵션으로 128GB, vRAM 96GB 할당 가능)

FP4 지원, CUDA, ConnectX-7 와 확장 시 128GB 메모리가 추가 된다지만 기계 값이 Strix Halo 대비 두 배가 넘으니 엄두가 안 나네요.

AMD ROCm 가 CUDA 대비 생태계가 부족 해도 지금까지 제가 만든 프로그램은 잘 돌아서 이쪽으로 기울고 있는데 (300만원 가량으로 128GB 2TB SoC 구매 가능) 예산, 전력 소모 고려 한 시스템 구성 어떻게 하셨는지 궁금합니다.

저는 AMD Strix Halo, OS 는 Fedora 기반 Bazzite 로 가려 합니다. 그래픽 드라이버 기본으로 다 깔려있고, Distrobox, mise 깔면 제가 만든 프로그램이랑 필요한 모델 실행이 되겠더라고요.

광군제 할인으로 산 Strix Halo 머신이 도착했고, Bazzite 를 깔고 distrobox 로 몇 가지 이미지 생성을 해봤습니다. 예상했던대로 성능이 나왔습니다(LLM은 그다지 높지 않았습니다). 그냥 고성능 미니 PC라고 생각하면 됩니다.

통합 메모리 96GB 이상을 vRAM 할당할 수 있다는데, 동적으로 변해서 확인이 안되는건지, 아직까지 96GB 이상 할당된 것을 못 봤습니다.

구성은 https://strixhalo.wiki/ 사이트를 참조했습니다. 구매 가이드(Strix Halo - Mac - DGS Spark - 6000) 비교 표도 있으니 참고하시면 도움이 될겁니다.

Bazzite 광고: OS를 불변 이미지로 관리하고, 기타 프로그램은 배터리(flatpak, brew 등)으로 관리합니다. 업데이트 명령으로 펌웨어부터 모든 패키지 업데이트가 됩니다. OS 지저분해진거 같으면 사용자 경로만 정리하면 됩니다(OS 는 일반적인 방법으로 못 건드림). AMD 드라이버 다 깔려 있어서 ROMc 바로 사용 가능합니다.

컨테이너 발사대...로써의 OS로 나온게 fedora coreOS 인데, 여기에 각종 사용자 설정을 덧붙인 Bazzite 는 일반 사용과 개발용으로도 편리하고 사용성이 매우 뛰어납니다. 컨테이너(distrobox), wine, tailscale 기본 설치 되어있고요. 여기에 mise만 올려주면 원하는 기능 다 관리 된다고 봅니다.

처음부터 설정하면서 가이드 만들 생각이었습니다만, 기존 사용하던 Bazzite 사용자 계정 디렉터리 통째로 복사하니 설정이 다 옮겨와서 설정 가이드를... 못 만들겠네요.

제 개인적 의견은 맥과 엔비디아 DGX 스파크의 경우에는 통합메모리, 그 외에는 RAM과 VRAM을 하는 방식으로 많이 나뉘게 됩니다.
그중 일부 제품의 경우에는 내장 그래픽카드의 VRAM 할당은 시스템 램을 쓰는 방식으로도 나오고 있죠.
비 전문가에게는 맥이나 Nvidia DGX Spark를 추천하고, 본인이 어느 정도 삽질할 수 있다면 AMD 쓰는 것이 더 좋을 수 도 있습니다.
각각 장단점이 나옵니다.

맥, Nvidia DGX Spark 등의 경우에는 본인이 램 업그레이드가 불가능하므로 미리 셋팅해서 사야한다는 단점이 있습니다.
AMD의 경우에는 직접 램 업그레이드 가능하다는 장점이 있지만 VRAM 할당에 한계는 존재함

즉, 128GB 이상을 VRAM으로써 써보고 싶다 라는 관점에서는 맥 스튜디오가 가장 유리한 옵션입니다.
삽질의 여지는 낮지만 맥 스튜디오의 경우에는 인퍼런스에는 괜찮지만 학습에는 불리하다는 단점이 있습니다. (학습에선 AMD보다 느림)

Nvidia DGX Spark의 경우에는 메모리를 128GB 이상 구성하려면 엔비디아의 별도의 케이블까지 사야한다라는 단점이 있음. 그러나 인공지능 학습의 경우에는 CUDA가 기본적으로 쓰이고 있기 때문에 가장 삽질이 덜함. 또한 성능의 경우 VRAM을 제외하면 5070급이라는 소문과 메모리 대역폭의 한계점이 있음...(학습을 고려할 경우는 무난한 선택지)

내장 그래픽을 이용한 VRAM 할당
최근 메모리값 상승으로 인해 아쉬운 선택지지만 그럼에도 불구하고 램 옵션을 고려하면 맥보다 훨씬 쌈. 다만 AMD ROCm이 부족한 것이여서 직접 고생해야한다는 단점이 있어 비전문가에겐 비추천(또한 VRAM을 더 높이는 것은 사실상 불가능...)

이렇게 정리가능할 듯 싶습니다.
가성비만 고려한다면 AMD 가 좋긴 하죠...그러나 맘편하게 쓴다면 맥 스튜디오도 나쁜 옵션은 아닙니다. 인퍼런스만 고려하면 충분히 가성비 영역이 되버려서...

AMD의 경우에는 직접 램 업그레이드 가능하다는 장점이 있지만 VRAM 할당에 한계는 존재함
-> 이 부분 정리없이 쓰다보니 잘못 쓰였네요. 시스템램과 VRAM을 나누는 경우는 일부는 업그레이드 되는 경우가 있고 랩탑 기준으로는 업그레이드 안되는 것도 많습니다.

5070Ti Super 기다리다말고 라데온에 홀려서 이렇게 맞춰서 쓰고 있습니다.

  • 9800x3D
  • 중고 7900 XTX
  • 96GB RAM

파티션 쪼개서 Ubuntu 24.10 올리고 ROCm 7.1 올리니까 LLM Inference랑 Pytorch정도 쓰는 ComfyUI 쪽에선 큰 문제 없이 잘 돌리고 있습니다.

SageAttention 안되는게 좀 흠이긴 한데 가격 생각하면 그러려니 하고 있습니다.

맥스튜디오 큰거 살까 생각중이었는데 Home LLM 관련해서 이렇게 옵션이 많이 늘었는지 몰랐네요.
혹시 Strix쪽 세팅을 어떻게 구성하시는지 여쭐 수 있을까요?

Strix halo 는 아직 구매 전이고, 유사하게 AMD GPU 사용하는 게임용 컴퓨터에서 16GB vRAM 사용하여 대략 6억 건의 경우의 수 계산을 했습니다.

한 번 구성하고, 되는대로 검색해가며 한거라 기억이 정확하지 않습니다.

Bazzite 사용 중이라 그래픽 드라이버는 깔려있으니 특이할 게 없었고요, ROMc 와 관련 모듈을 distrobox 안의 Rocky Linux 에 설치 후에 각종 GPU 사용하는 연산을 하였습니다.

빠른 메모리 대역폭이 높으니 맥 스튜디오도 고려해볼만 하지 않을까요? 128GB 2TB 옵션 넣으면 4000 달러이긴 합니다. 맥 아키텍쳐인 부분은 AMD 로 가는 것과 큰 차이 없을 거 같습니다.

답변 참고하겠습니다.
친절하게 답변해주셔서 감사합니다!

https://www.youtube.com/watch?v=Pww8rIzr1pg 기반으로 제미나이에게 비교해달라고 한 결과

📊 128GB LLM 실행 옵션 비교 (2025년 11월, 벤치마크 반영)

영상 내용 반영: Hardware Unboxed의 벤치마크를 기준으로, Strix Halo는 M3 Max 대비 우위(약 30~35% 향상)를 보이며, GB10 "Spark" 시스템은 이들 APU/통합 칩셋보다 훨씬 뛰어난 전용 NPU/GPU 성능을 보여줍니다. (Llama 3 70B Q4 추론 기준 T/s)  

구성 옵션 (128GB) T/s (추정) 시스템 전력 (추정) T/W (전성비) 시스템 비용 (추정) Cost/T (가성비)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~520만 원 4.33만 원/T
4 x RTX 5080 32GB (신품) 240 T/s 1500 W 0.16 ~1,200만 원 5.0만 원/T
6 x RTX 3090 (중고) 90 T/s 2300 W 0.04 ~700만 원 7.8만 원/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~260만 원 8.67만 원/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~600만 원 27.3만 원/T

💡 분석 및 결론 (오류 수정)

저의 중대한 실수를 바로잡고, 영상의 내용을 올바르게 반영하여 다시 분석합니다.

"가격대 성능비(Cost/T)" 챔피언: NVIDIA "Spark" (GB10)  

    Cost/T (가성비): 4.33만 원/T  

    Hardware Unboxed 영상에서 보여준 것처럼, $3999의 'Spark' 시스템은 $2000의 'Strix Halo' 시스템보다 훨씬 뛰어난 LLM 추론 성능(T/s)을 제공합니다.  

    이로 인해 토큰 당 시스템 구축 비용(Cost/T)이 모든 옵션 중 가장 저렴하여, '가성비' 챔피언이 됩니다.  

    T/W (전성비) 또한 0.30으로, 다중 GPU 구성 대비 월등히 효율적입니다.  

"절대 예산" 챔피언: AMD Strix Halo (128GB)  

    Cost/T (가성비): 8.67만 원/T  

    이 시스템의 가치는 절대 속도(30 T/s)가 아니라, **약 260만 원($2000)** 이라는 압도적인 '최저 비용'으로 128GB의 VRAM 환경에 진입할 수 있다는 점입니다.  

    영상에서 M3 Max를 능가하는 것으로 확인되었듯이, 개인 개발자에게는 훌륭한 '입문용' 옵션입니다.  

"절대 속도" 챔피언: 4 x RTX 5080 32GB  

    T/s (속도): 240 T/s  

    'Spark'나 'Strix Halo' 같은 통합 시스템은 추론(Inference)에는 강력하지만, 모델을 직접 '파인튜닝(미세조정)'하는 데는 한계가 있을 수 있습니다.  

    만약 가장 빠른 추론 속도와 더불어 직접 모델을 훈련/수정하는 유연성까지 원한다면, 여전히 다중 개별 GPU 구성(4 x 5080)이 가장 강력한 옵션입니다.

4K 예산 내에서 DGX Spark 보다 쿼드 3090 가 성능이 훨씬 뛰어나다는 영상

https://www.youtube.com/watch?v=md6a4ENM9pg

Strix Halo 가 Local LLM 실행 머신으로 형편없는 구매라는 주장

https://reddit.com/r/LocalLLaMA/…

전력 소모는 중요 기준이 되기 어렵고, 대역폭 때문에 큰 모델을 메모리에 로딩해도 써먹을 수 없다... 는게 주요 주장인듯 하네요.