달러당 성능이 더 빠르고 저렴해지고 있음
(wafer.ai)- 추론 수요가 공급을 앞지르고 NVIDIA GPU와 토큰 비용이 오르는 가운데, AMD MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴해 저비용 추론 대안으로 부상함
- AMD Instinct MI350 계열은 Blackwell과 실리콘 수준에서 경쟁하지만, NVIDIA의 소프트웨어 우위와 day-0 지원이 실제 서빙 속도와 도입 난이도를 좌우함
- Wafer는 GLM-5.2를 MI355X에서 최적화해 20k 입력/1k 출력, 60% 캐시 히트율 워크로드에서 2626 tok/s/node와 2.4 rps를 달성했으며, 이는 B200 측정 성능의 80% 수준임
- 단일 스트림 기준으로는 10k 입력 토큰/1.5k 출력 토큰에서 213 tok/s를 기록했고, 리더보드 최상위는 아니지만 성능당 비용에서는 우위가 있다고 봄
- 이번 결과는 커스텀 커널 없이 프레임워크 버그 수정, 양자화, speculative decode, MoE 커널 선택 튜닝으로 나온 것이어서 AMD의 과제는 점점 소프트웨어 자체보다 지원 문제에 가까워짐
AMD 추론 비용과 NVIDIA 소프트웨어 격차
- 추론 수요는 빠르게 늘고 공급을 앞지르고 있으며, Claude Fable, GLM-5.2, Minimax M3 같은 최전선 모델이 거의 격주로 나오면서 토큰 수요도 커지고 있음
- Blackwell 공급이 충분하지 않아 NVIDIA GPU 가격과 토큰 비용이 함께 비싸지는 흐름임
- AMD MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴하고, 하드웨어 사양은 비교 가능한 수준임
- AMD Instinct MI350 계열은 실리콘 수준에서 Blackwell과 경쟁하지만, NVIDIA는 day-0 지원과 소프트웨어 생태계 덕분에 최신 모델 추론을 더 빠르고 적은 마찰로 서빙할 수 있음
- MI355X와 ROCm 스택에서는 최신 최전선 모델의 SOTA 성능이 기본으로 나오지 않는 경우가 많고, 실행 가능한 이미지조차 찾기 어려울 수 있음
- day-0 지원이 없으면 최신 모델을 빌드하고 최적화하는 데 몇 주의 엔지니어링과 컴퓨트가 필요하며, 그 사이 더 새로운 모델이 나와 AMD가 계속 따라잡는 구도가 됨
GLM-5.2 on MI355X 성능
- Wafer는 에이전트가 커널과 모델 최적화에서 개선되면서 AMD와 NVIDIA 사이의 실전 격차가 줄고 있다고 봄
- 20k 입력/1k 출력, 60% 캐시 히트율 워크로드에서 2626 tok/s/node를 달성함
- 지속 RPS는 2.4 rps
- 정의한 knee는 TTFT 5초 이하
- B200에서 측정한 성능의 80% 수준
- MI355X는 2배 이상 저렴함
| 지속 RPS | 집계 tok/s/node | TTFT p50 / p95 | 성공률 |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4 포화 | 2626 | 0.81s / 2.22s | 100% |
- Artificial Analysis 기준에 따라 GLM-5.2 단일 스트림에서 10k 입력 토큰/1.5k 출력 토큰 기준 213 tok/s를 달성함
- 이 수치는 Artificial Analysis 리더보드 최상위는 아니지만, 성능당 비용에서는 우위가 있다고 봄
- 테스트는 TensorWave의 AMD MI355X 용량에서 서빙됨
양자화와 추론 프레임워크 선택
- 첫 단계는 양자화와 프레임워크 선택이었고, Wafer는 bf16 기반 GLM-5.2를 AMD Quark로 MXFP4 양자화함
- z-ai의 공식 FP8 양자화와 비교해 MXFP4는 GPQA-Diamond, tau2, GSM8K에서 손실이 없는 수준으로 평가됨
| 평가 | FP8 기준 | MXFP4 | Δ |
|---|---|---|---|
| GSM8K, 200문항, 5-shot, greedy | 0.965 ± 0.013 | 0.955 ± 0.014 | −0.010 |
| GPQA-Diamond, 198문항 × 2 seeds, temp 1.0 | 0.9217 ± 0.027 | 0.9026 ± 0.029 | −0.019 |
| tau2 macro | 0.819 | 0.834 | +0.015 |
- 추론 프레임워크 후보는 vLLM, ATOM, sglang 3가지였음
- vLLM은 MXFP4 + GlmMoeDsa 경로가 동작하지 않아 MXFP4 가중치의 이점을 활용하지 못함
- ATOM은 긴 컨텍스트에서 출력 품질이 저하됨
- sglang은 네이티브 지원까지의 마찰이 가장 적고, 양자화를 활용하면서도 일관된 출력을 유지함
speculative decode를 막던 두 가지 문제
- 처리량 개선을 위해 sglang에서 speculative decode를 활성화하려 했지만, sglang ROCm 이미지는 이를 기본 지원하지 않았음
- MTP가 제대로 동작하려면 두 가지 수정이 필요했음
- 첫 번째 문제는 MTP head의 shared expert가 bf16으로 저장되지만, sglang의 양자화 조회가 모듈 prefix 불일치 때문에 이를 MXFP4로 빌드하려 한 점임
- Quark는 bf16 shared expert를
model.layers.78.mlp.shared_experts.*로 이름 붙임 - MTP layer의 실제 prefix는
model.decoder.*임 - 이 불일치 때문에 로드 시 full-width bf16 가중치를 half-width 4-bit 슬롯에 읽으려 하며 shape mismatch로 초기화가 실패함
- Wafer는 layer 78 항목을 sglang이 실제 사용하는 decoder 이름으로 한 번 더 복사해 speculative decode를 열었고, 단일 스트림 처리량이 거의 3배 증가함
- Quark는 bf16 shared expert를
- 두 번째 문제는 z-ai가 제안한 5/1/6 설정 같은 깊은 speculative decode가 막힌 점임
- draft depth 4 이상에 필요한 fused multi-step metadata 커널이 ROCm guard 없이
#include <cuda_runtime.h>를 작성함 #ifdef USE_ROCMguard 하나로 수정함
- draft depth 4 이상에 필요한 fused multi-step metadata 커널이 ROCm guard 없이
- speculative decode가 정상 동작한 뒤
--kv-cache-dtype fp8_e4m3,--enable-aiter-allreduce-fusion같은 설정 최적화를 더해 단일 스트림 디코드 213 tok/s에 도달함
집계 처리량 병목과 MoE 튜닝
- 정의한 워크로드에서는 디코드 최적화만으로 충분하지 않았고, 20k 입력과 60% 캐시 조건에서 주된 병목은 prefill이었음
- 단일 스트림 디코드에 맞춘 TP8 구성에서 MI355X는 GLM-5.2-MXFP4를 1461 tok/s/node로 실행함
- TP4×DP2로 전환하자 같은 워크로드에서 1944 tok/s/node와 2.0 RPS를 달성함
- 다만 Wafer가 측정한 Blackwell 성능은 3.0 RPS에서 3192 tok/s/node였고, MI355X의 prefill 성능은 상대적으로 느렸음
- sglang 이미지에서 GLM-5.2의 fp4 MoE가 느린 FlyDSL 휴리스틱 fallback으로 조용히 떨어진 점이 큰 이유였음
- aiter는 a8w8/fp8 경로에 대해서만 튜닝된 설정을 제공함
- Wafer는 GLM의 fp4 shape에 맞춰 MoE 커널 선택을 직접 튜닝함
- 대상 shape는
model_dim 6144,moe_inter 2048,E=256,topk=8
- 이 튜닝으로 집계 처리량은 2626 tok/s/node와 2.4 RPS에 도달함
AMD에서 SOTA 성능을 내는 데 필요한 것
- MI355X에서 최고 성능당 비용을 달성하는 과정에는 어느 정도 마찰이 있었지만, 특별히 어렵지는 않은 수준으로 평가됨
- Qwen3.5 397B 작업과 달리 이번에는 커스텀 커널을 작성하지 않았음
- 이번 연구는 멀티 노드 성능을 고려하지 않았지만, 단일 노드 배포는 실제 환경에서 여전히 널리 쓰임
- AMD에서 SOTA 성능을 내는 문제는 점점 소프트웨어 자체보다 지원의 문제가 되고 있음
- CUDA moat는 실시간으로 약해지고 있다는 결론임
댓글과 토론
Hacker News 의견들
-
이런 비교에는 와트당 성능도 지표로 넣어줬으면 함. AMD가 실제 성능 대비 비용에서 어느 위치인지 알고 싶음
미국 밖에 데이터센터를 지으려는 회사들과 얘기해보면, Nvidia 물량을 충분한 규모로 확보하기가 어렵다고 함
AMD가 와트당 성능에서 경쟁력 있고 소프트웨어 지원도 대체로 믿을 만하다면, 미국 밖에서는 전기요금이 상대적으로 비싼 경우가 많아 꽤 중요함
적절한 가격으로 소규모 데이터센터를 가능하게 만든다면, Nvidia 공급이 제한적인 지역에서 AMD가 스택의 일부가 될 수 있어 보임
다만 AMD GPU 조달이 실제로 어떤지는 잘 모르겠고, 미국의 Wafer와 몇몇 회사를 빼면 AMD를 쓰는 회사를 거의 본 적이 없어 Nvidia 버블 안에 갇힌 건지도 모르겠음- DGX B200은 대략 50만 달러이고 전력은 약 14kW를 씀
8년 동안 100%로 계속 돌린다고 가정하면 약 1GWh인데, 독일처럼 전기료가 비싼 곳에서도 약 10만 유로 수준이라 초기 장비값 50만 달러에 비하면 8년에 걸친 비용으로는 크지 않음
고전력 소비의 진짜 문제는 전기요금보다 데이터센터에 끌어올 수 있는 전력 공급 한도임. 더 효율적인 구성이 좋다는 건 제한된 전력 인입 안에 더 많은 장비를 넣을 수 있다는 뜻임 - AMD를 쓰는 곳이 몇 군데 있고, 실험을 시작한 곳은 더 많음. 다만 AMD는 이 분야에서 오랫동안 실망을 줬기 때문에 드디어 경쟁이 생긴다고 낙관하기는 조심스러움
시장에는 Nvidia의 실질적 경쟁자가 정말 필요하고, 특히 성능/와트가 중요함 - Meta가 AMD를 쓰고 있음: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
OpenAI도 마찬가지임: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd... - AMD가 지난 여러 해 동안 비디오게임 콘솔의 하드웨어 쪽을 사실상 장악해왔다는 점도 기억할 만함. 당장 끝날 조짐도 없음
- 보통 Nvidia가 주문을 다 채워주지 못하는 회사라면 적어도 일부 AMD GPU는 갖고 있음
- DGX B200은 대략 50만 달러이고 전력은 약 14kW를 씀
-
멋지긴 하지만 실제 사용에서 FP4 양자화가 사실상 무손실인 경우는 거의 없음. 많은 제공사가 Kimi와 GLM에서 높은 초당 토큰 수를 광고하지만, 모델이 기능적으로 절제된 상태가 되어 더 이상 최전선 품질에 가깝지 않음
이게 사실이 아니면 좋겠음- Kimi는 INT4를 기본 형식으로 쓰므로, 그 모델에는 “4비트 정밀도보다 더 좋다”는 개념이 없음
이는 16비트 정밀도가 기본이고 8비트도 흔히 쓰이는 GLM과 다름 - MI355X는 FP4와 같은 속도로 FP6 연산을 할 수 있음. AMD만의 특징임
그래서 사람들은 거의 무손실에 가깝고 FP8보다는 FP4 성능에 훨씬 가까운 MXFP6 양자화를 만들어야 함 - Nvidia도 NVFP4가 무손실이라고 주장하지 않나?
Nvidia가 NVFP4로 변환한 모델을 GLM 5.2 말고 충분히 테스트해보진 않았지만, 내가 보기엔 괜찮았음
직접 써본 결과는 모델마다 들쭉날쭉했음 - 나도 가장 먼저 그 부분이 눈에 띄었음
- 기억으로는 정확도의 96~98% 정도였던 것 같음
- Kimi는 INT4를 기본 형식으로 쓰므로, 그 모델에는 “4비트 정밀도보다 더 좋다”는 개념이 없음
-
더 빠르고 싸게 개선하는 경로를 논할 줄 알았는데, 이 글에서는 양자화 버전을 전체 버전과 같은 가격에 제공하고, 빠른 버전은 훨씬 비싸게 파는 것처럼 보임
-
이건 거의 당연한 것 아닌가? 달러당 성능은 래칫처럼 한 방향으로 좋아져야 함. 더 비싼 것이 더 싼 것을 어떻게 대체하겠음?
-
이런 글 제목에는 양자화 방식을 명시하지 않으면 불법으로 만들어야 한다고 봄
- MXFP4임
- 제목에 “Why this matters”를 쓰는 것도 금지했으면 함
- 좋은 필터는 끝이
.ai인지 확인하는 것임. 그게 보이면 저노력, 클릭베이트, 얕은 글, 쓸모없는 글, 사기성 글일 가능성이 매우 높음
-
메모리 내 연산과 뉴로모픽 패러다임은 앞으로 10년 동안 이 흐름을 훨씬 더 밀어붙일 가능성이 큼
더 급진적인 개선이 연구실 밖으로 나오면서 결국 새로운 소재와 나노 소자가 들어가고, 효율은 여러 자릿수 단위로 좋아질 수 있음
MRAM 같은 기존 기술을 키우는 것만으로도 여지가 있음 -
fp8에서 mxfp4로 바꾸면서 정확도 저하가 눈에 띄게 생김
- Wafer는 출시 몇 주 만에 자체 플래그십 코딩 요금제인 Wafer Pass를 중단했고, 비례 환불까지 해야 했음
그런데도 구현이 명백히 부족한데 양자화로 비용을 더 낮췄다고 자랑하고 있음
[1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat... - 그런데도 어떻게든 “무손실”이라고 주장했음
- Wafer는 출시 몇 주 만에 자체 플래그십 코딩 요금제인 Wafer Pass를 중단했고, 비례 환불까지 해야 했음
-
새로운 현상은 아님. 달러당 성능은 1900년쯤부터 꽤 꾸준히 지수적으로 좋아져 왔음
1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-... -
Blackwell과 경쟁하는 건 놀랍지 않음. Rubin은 추론에서 Blackwell보다 5배 빠르고, Blackwell은 Nvidia가 추론에 특화해 최적화하지 않은 마지막 세대임
내가 놓친 게 있다면 알려줬으면 함- Rubin에서 추론에 최적화됐다고 할 만한 특별한 점이 무엇인지는 매우 불분명함
프리필 노드와 디코딩 노드를 분리하는 분리형 구성은 보이지만, 그 밖에 뭐가 있는지 모르겠음 - 추론이 메모리 대역폭에 묶여 있는데 어떻게 추론을 5배 빠르게 만들 수 있나? H100의 5배 메모리 대역폭을 얻는 건 물리적으로 어려워 보임
- Rubin에서 추론에 최적화됐다고 할 만한 특별한 점이 무엇인지는 매우 불분명함
-
특히 여러 통화가 약세를 보이는 상황에서는 더 그렇음