AMD의 칩렛 APU: Strix Halo 개요

(chipsandcheese.com)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Strix Halo는 AMD가 선보인 최대 규모의 클라이언트용 칩렛 APU로, 고성능 CPU와 GPU 작업을 통합 처리하도록 설계됨
16코어 Zen 5와 40개의 RDNA 3.5 iGPU 컴퓨트 유닛이 탑재되어 데스크톱급 CPU 및 미드레인지 외장 GPU에 근접한 성능을 제공함
LPDDR5X-8000 메모리 버스와 32MB Infinity Cache를 적용하여 높은 대역폭과 낮은 레이턴시 환경 구현
iGPU 성능은 기존 모바일 APU를 압도하고, 일부 환경에서는 중급 외장 GPU와도 경쟁 가능함
ML(머신러닝) 성능은 ROCm 지원 대기 중으로 향후 확장성 및 발전 가능성 기대

소개 및 제품 개요

Strix Halo는 AMD가 CES 2025에서 발표한 첫 소비자용 칩렛 APU임
모바일 프로세서임에도 데스크톱에 필적하는 고성능을 추구하며, 55W~120W TDP 범위 지원, 별도 외장 그래픽 없이도 고성능 구현
16코어 Zen 5 아키텍처(듀얼 8코어 CCD)와 데스크톱 제품과 동일한 512b FPU를 활용함
5.1GHz 최대 부스트 클럭(데스크톱 Ryzen 9 9950X보다는 600MHz 낮음) 지원
메인 GPU 역할을 하는 RDNA 3.5 iGPU: 40컴퓨트 유닛, 32MB Infinity Cache, 2.9GHz 부스트 클럭 → RX 7600 XT~RX 7700 레벨의 계산 성능
256b LPDDR5X-8000 메모리 버스(최대 256GB/s, 모든 부품 공유; RX 7600 XT의 288GB/s보다는 소폭 낮음, 기존 APU 대비 월등)** 적용**

테스트 환경 및 기기

Asus ROG Flow Z13 (2025) 와 HP ZBook Ultra G1a 14” 를 활용해 실사용 성능 측정
ROG Flow Z13은 게이밍 중심 테스트, ZBook Ultra G1a는 마이크로벤치마킹에 사용

CPU 관점의 메모리 서브시스템

메모리 레이턴시: Strix Point(~128ns) 대비 Strix Halo(~123ns)는 거의 차이 없음
CPU는 IO 다이 내 32MB Infinity Cache에 직접 접근 불가, 이는 인터뷰를 통해 공식 확인됨
데스크톱 CPU(9950X) 는 75~80ns로 모바일 대비 훨씬 낮은 레이턴시
메모리 대역폭: 16코어가 순수 읽기-수정-덧셈 연산에서 175GB/s 이상, 읽기는 124GB/s 달성 가능
- 단일 CCD 대역폭은 64GB/s(읽기), 43GB/s(쓰기)로 실제 총 103GB/s 수준
- 데스크톱과 동일하게 CCD-IO 다이 간 링크는 2000MHz, 사이클당 32바이트

CPU 성능

Strix Halo CPU는 지난 세대 데스크톱 플래그십(7950X) 과 동일한 정수 연산 성능을 확보, 클럭 스피드는 11.7% 감소 있음
부동소수점 성능은 현 플래그십(9950X)과 근접, 일부 부부테스트에서 역전 현상
SPEC CPU 2017 Integer/FP 서브테스트에서 Strix Halo는 9950X와 근접하거나 일부 항목에서 초과, 다만 LPDDR5X 버스의 더 높은 레이턴시로 근소한 차이 발생

GPU 관점의 메모리 구조

Strix Halo GPU의 메모리 대역폭은 모든 모바일 SoC 중 압도적으로 높음
단, RTX 5070 Mobile에 비해 메모리 대역폭은 50% 낮음
Infinity Cache(MALL) 성능은 5070M L2보다 40% 높고, 용량도 33% 큼. 4MB L2 캐시는 2.5TB/s 대역폭 제공
Strix Halo의 L2 캐시 레이턴시는 5070M L2보다 낮고, 32MB MALL 레이턴시는 5070M L2와 유사
전체 메모리 레이턴시는 5070M 대비 35% 더 낮음

GPU 연산 처리량(Throughput)

부동소수점 연산 처리량: Strix Point의 약 2.5배, 5070M과 유사 혹은 상회
- FP16 결과에서 5070M만 기대치 미달(아마 벤치마크상의 특이 사항)
정수 연산 처리량: 5070M이 Radeon 8060S보다 높음

GPU 성능 및 게이밍

iGPU로써 Strix Halo는 기존의 Intel/AMD iGPU 대비 압도적 성능, 외장 GPU와도 근접한 경쟁력
델타가 큰 게임(Cyberpunk 2077) 테스트에서:
- 배터리 환경: Radeon 8060S가 같은 조건의 5070M 대비 7.5% 뛰어난 1080p 성능
- 벽전원 환경: 1080p에서는 Radeon 8060S가 2.5% 앞섬, 1440p에서는 5070M이 8.3% 앞섬
- 세부 설정/전력 조건에 따라 양쪽 모두 경쟁력 확보, iGPU가 외장 GPU와 실질적 대등 성능 보임
Fluid X3D 및 연산형 워크로드에서는 Radeon 8060S가 인텔/AMD 기존 iGPU들을 완전히 초월함

결론

Strix Halo는 고성능 CPU-GPU 통합 SoC를 목표로 다양한 활용 환경에서 뛰어난 성능 발휘
데스크톱 Zen 5 CPU 및 미드레인지 외장 GPU와도 경쟁, 모바일/데스크톱 모두 대응
효율성과 통합성(iGPU의 장점) 을 유지하면서도, 고성능을 보유
고사양 전용 외장 GPU보다 위에 올라서진 않지만, 소형 기기와 통합 환경에선 최고의 유연성과 성능 제공
ML 성능은 ROCm 지원 지연으로 차기 분석 필요. 향후 확장성과 대용량 메모리 버스 설계(Apple Max/Ultra처럼) 가능성 언급
Strix Halo의 성공적 설계 방식이 추후 AMD 고성능 APU 라인업 확장에 밑거름이 될 전망

▲

GN⁺ 2달전 [-]

Hacker News 의견

나는 이 제품이 탑재된 미니 PC를 꼭 써보고 싶음, 하지만 유럽에서는 엄청나게 비싸거나 아예 구매 자체가 불가능함, 중국에서 직구하는 것도 AS 문제로 조심스러움, ROCm 7이 벌써 대부분의 리눅스 배포판에서 동작하고 있어서, 이걸 워크스테이션이나 집에서 LLM 또는 Ollama와 다른 서비스용 홈 인퍼런스 서버로 쓰면 정말 좋을 것 같음
- 독일에서 배송하는데 가격도 비교적 저렴한 제품을 찾았음 BOSGAME M5 AI Mini Desktop 참고 음
- Corsair AI Workstation 300 Desktop PC를 알아봤는지 궁금함, 선택하는 모델에 따라 2000~2700유로인데, 부가세 감안하면 미국 달러 기준(1700~2300USD)과 비슷한 느낌임 Corsair AI Workstations
- framework desktop 395 128Gb 버전을 1900유로 조금 안 되게 주문했음, 추가 구성까지 포함해서 배송료 포함 2000유로 좀 넘게 냈는데, 가격이 비싸다는 생각은 들지 않았음
- 가격이 비싼 주요 원인은 하이 밴드위스 메모리 때문이라고 이해함 (하지만 실제 고성능 GPU와 비교하면 메모리 대역폭이 아주 높은 건 아님)
- ROCm이 많이 발전하고 있지만, RX9070XT 데스크탑에서 약간의 문제를 겪기도 했으므로 AI 작업하려면 당장은 Nvidia나 Apple 솔루션을 추천함, 하지만 곧 따라잡을 것으로 봄, 가격 대비 최고 AI 시스템은 여전히 RTX 3090 두 장을 꽂은 데스크탑을 직접 조립해서 쓰는 것임 (물론 듀얼 카드 지원하는 보드 필요) 그리고 그냥 옷장에 넣고 돌리면 됨
모바일 dGPU, 그리고 (드디어 현실이 된) DGX Spark 제품과 비교해보면, 이 시장은 아직 완성형이 아니고 잠재력이 남은 세그먼트처럼 느껴짐, DGX Spark가 왜 오래 지연되었는지는 모르겠지만 그 덕분에 AMD가 먼저 시장 점유율을 얻는 기회였음, 디스크리트 GPU(모바일 포함)의 장점은 메모리 대역폭이고, 단점은 높은 전력소모와 메모리 용량임 (CUDA는 논외로 두겠음, 물론 그게 엄청 큰 요소이긴 함), DGX Spark 소형 데스크탑을 추가하면 200Gb 듀얼 네트워크 포트로 여러 장치에 RDMA 사용 가능해서, 같은 대수의 Strix Halo 395보다 더 높은 활용도 나올 수도 있음, 하지만 실제 업무에선 DGX Spark 4대 대신 GPU 서버나 Threadripper GPU 워크스테이션을 쓸 것 같음, 그리고 DGX Spark는 랩탑에 안 들어가는 점도 Strix Halo에 유리함, 결론적으로 이건 새로운 틈새시장이라 생각하고, 앞으로 몇 세대에 걸쳐 어떤 형태로 자리잡을지 기대함
- 다음 세대엔 AMD에서 Medusa Halo가 나올 예정인데, 384비트 LPDDR6 버스를 탑재한다고 함, 이 경우 Strix Halo보다 2배 메모리와 1.7배 대역폭 달성 가능성이 있음, Strix Halo가 인퍼런스 플랫폼으로 성공 중이라 이 시장 세그먼트는 계속 성장할 것 같음
- 참고로 200Gb 듀얼이 아니라 200Gb 단일 또는 100Gb 듀얼임
- “dGPU”는 보통 디스크리트 GPU란 뜻임, 혹시 “iGPU”(통합 그래픽)를 말하는 게 아닌지 궁금함, Strix Halo 제품은 게임용으로도 마케팅 중이긴 한데 실제 성능은 어울리지 않는 느낌임, CPU는 과하게 빠른데 iGPU 성능이 상대적으로 부족함, 하지만 행렬 곱(matmul) 성능은 확실히 강력할 것 같음
- DGX Spark의 주요 목적은 로컬 AI 모델 개발 및 테스팅처럼 보임, Strix Halo는 amd64 기반의 iGPU라 전통적인 PC 작업에도 쓸 수 있고 로컬 AI 타겟 디바이스로도 충분함, 내 생각에는 Strix Halo가 랩탑에서 디스크리트 GPU 시대의 종언을 알리는 시작점 같음, Nvidia도 이걸 인식해서 Intel과 협력해 iGPU 솔루션을 만들려는 듯함
아쉬운 점은 출시된 지 반년이 지났는데도 쓸 수 있는 랩탑이 두 개뿐이고, 그 중 고성능 모델은 Z13 하나임, Framework 제품도 있지만 많은 나라에서는 구매가 불가능하고, 꽤 제한적인 고객층이라 봄, Z13을 정말 좋아하는데 이 제품도 명백히 니치임, 칩 제조에 문제가 있는지 모르겠고, 애플이 모든 생산량을 가져가는지도 궁금함
- HP ZBook Ultra의 미국 가격은 엄청 높았는데, 유럽에서는 일반 랩탑과 비슷해서 합리적게 느껴졌음, 내가 아쉬운 건 출시 첫날 주문해서 128GB 버전을 못 기다린 점임, 하지만 배터리나 성능은 여태껏 다뤄 본 어떤 무거운 작업에도 따라올 경쟁자가 없었음, 그리고 랩탑 외에도 Beelink 같은 업체들이 합리적인 가격의 NUC도 만들고 있음, 공급 부족이 기회 판단을 어렵게 한 건 동의함
- HP ZBook Ultra G1a는 최고 128GB 램 구성 가능해서 좋은 옵션임
- Beelink, GMKtec, Minisforum, Corsair 이 브랜드들도 제품 출시 중임
- 대부분의 유럽에서 Z13을 32GB 이상 램 구성으로 못 사고, 2~3년 보증도 일반적으로 제공되지 않아서 아쉬움, 결과적으로 램/CPU/GPU가 더 약한 Framework 13을 구매할 수도 있을 것 같아 불만임
High Yield 가 실리콘 레벨에서 395 칩을 깊게 분석한 영상을 올렸으니 참고하면 좋겠음 High Yield - 395 Chip Deep Dive
framework desktop에서 TDP(전력 제한)를 더 높게 쓸 수 있는지 궁금함, 이 데스크탑은 같은 칩이 들어간 랩탑들보다 쿨링이 훨씬 좋아보이는데 실제 성능 차이가 있을지도 모름
- 140W 지속, 160W 버스트(약 10초)까지 설정 가능함
- 전력 소비는 측정해보지 않았지만, Framework 메인보드를 더 큰 ITX 케이스에 넣어서 쿨링을 개선해서 사용 중임, 내 메인 PC인 7950X3D와 Strix 유닛은 코어/스레드 수가 같고, 성능 측정에서도 차이가 거의 없음, 즉 노트북에서 데스크탑 급 컴퓨팅 성능이 가능하다는 사실이 놀라움
어디선가 읽기로, 이 APU가 Apple 제품만큼 에너지 효율이 높지 않은 주요 이유가 Epyc 아키텍처와 공유하기 위한 결정 때문이라는 말이 있었음, 그 때문에 저전력에서는 효율성이 떨어지게 되는 트레이드오프를 했다는 주장인데, 누가 검증해줄 수 있을지 궁금함
- Hardware Canucks의 리뷰에서 M4 Pro(3nm 2세대)와 395+ (4nm)를 50W에서 테스트한 결과가 있는데, 성능이 꽤 비슷해서, 3nm 대 4nm 공정 차이로 설명이 가능함 YouTube 리뷰
- APU도 괜찮지만, m3 ultra처럼 메모리 대역폭은 절대 못 따라감, 하지만 가격은 훨씬 저렴함, 나는 오래된 데스크탑을 교체하려고 고민 중인데, 외장 GPU(A6000 등)를 회사에서 잠깐 빌리고 세팅에 오래 걸리지 않는 것이 중요함
framework desktop을 사서 테스트해보고 있는데, 크기는 작지만 정말 인상적인 머신임, 앞으로 이런 제품이 더 많은 엔지니어 커뮤니티의 관심과 참여를 이끌기를 바람, vulkan이나 rocm 잘 지원되는 생태계가 모두에게 좋을 것임
관련 질문이 있는데, 데스크탑용 Zen 5 CPU + RX 7600 XT + 메모리를 조립하면, Strix Halo나 Apple Silicon처럼 시스템 메모리와 GPU가 메모리 대역폭을 공유하는 형태를 저렴하게 만들 수 있을지 궁금함, 그리고 합리적인 가격으로 대형 LLM도 로컬에서 돌릴 수 있을지 궁금함, 추가로 잘 모르겠는데, APU에서만 메모리를 공유하고 디스크리트 GPU에서는 안된다고 알고 있음, 맞는지 궁금함
- 메모리는 물리적으로 분리된 GPU에서는 "통합(unified)"이 아님, 그런 경우 PCIe 버스를 통해 접근하는데, 상당한 대역폭 병목 발생함, PCIe 5.0 x16의 최대가 64GB/s이고, 모든 GPU가 그걸 지원하지도 않음
그래픽 성능이 5070M 정도와 경쟁 가능한 수준인지 궁금함, 가격과 전력소모가 적당하다면 매우 매력적으로 보임
- 전력 소모는 약 75W임, 수동으로 올릴 수도 있으나 어떠한 경우에도 100W 밑으로 유지됨 (Z13 조사하면서 얻은 정보임), 이 칩 자체는 더 높은 전력을 버틸 수 있고, ASUS는 보통 랩탑에 130W 이상도 주는 회사라서 75W 수치는 좀 의외였음
GPU 성능이 m-시리즈 맥에 들어간 GPU와 비교해서 어떤지 궁금함

답변달기