달러당 성능이 더 빠르고 저렴해지고 있음

(wafer.ai)

추론 수요가 공급을 앞지르고 NVIDIA GPU와 토큰 비용이 오르는 가운데, AMD MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴해 저비용 추론 대안으로 부상함
AMD Instinct MI350 계열은 Blackwell과 실리콘 수준에서 경쟁하지만, NVIDIA의 소프트웨어 우위와 day-0 지원이 실제 서빙 속도와 도입 난이도를 좌우함
Wafer는 GLM-5.2를 MI355X에서 최적화해 20k 입력/1k 출력, 60% 캐시 히트율 워크로드에서 2626 tok/s/node와 2.4 rps를 달성했으며, 이는 B200 측정 성능의 80% 수준임
단일 스트림 기준으로는 10k 입력 토큰/1.5k 출력 토큰에서 213 tok/s를 기록했고, 리더보드 최상위는 아니지만 성능당 비용에서는 우위가 있다고 봄
이번 결과는 커스텀 커널 없이 프레임워크 버그 수정, 양자화, speculative decode, MoE 커널 선택 튜닝으로 나온 것이어서 AMD의 과제는 점점 소프트웨어 자체보다 지원 문제에 가까워짐

AMD 추론 비용과 NVIDIA 소프트웨어 격차

추론 수요는 빠르게 늘고 공급을 앞지르고 있으며, Claude Fable, GLM-5.2, Minimax M3 같은 최전선 모델이 거의 격주로 나오면서 토큰 수요도 커지고 있음
Blackwell 공급이 충분하지 않아 NVIDIA GPU 가격과 토큰 비용이 함께 비싸지는 흐름임
AMD MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴하고, 하드웨어 사양은 비교 가능한 수준임
AMD Instinct MI350 계열은 실리콘 수준에서 Blackwell과 경쟁하지만, NVIDIA는 day-0 지원과 소프트웨어 생태계 덕분에 최신 모델 추론을 더 빠르고 적은 마찰로 서빙할 수 있음
MI355X와 ROCm 스택에서는 최신 최전선 모델의 SOTA 성능이 기본으로 나오지 않는 경우가 많고, 실행 가능한 이미지조차 찾기 어려울 수 있음
day-0 지원이 없으면 최신 모델을 빌드하고 최적화하는 데 몇 주의 엔지니어링과 컴퓨트가 필요하며, 그 사이 더 새로운 모델이 나와 AMD가 계속 따라잡는 구도가 됨

GLM-5.2 on MI355X 성능

Wafer는 에이전트가 커널과 모델 최적화에서 개선되면서 AMD와 NVIDIA 사이의 실전 격차가 줄고 있다고 봄
20k 입력/1k 출력, 60% 캐시 히트율 워크로드에서 2626 tok/s/node를 달성함
- 지속 RPS는 2.4 rps
- 정의한 knee는 TTFT 5초 이하
- B200에서 측정한 성능의 80% 수준
- MI355X는 2배 이상 저렴함

지속 RPS	집계 tok/s/node	TTFT p50 / p95	성공률
0.5	449	0.59s / 0.60s	100%
1.0	974	0.60s / 0.81s	100%
1.5	1913	0.62s / 1.03s	100%
2.0	1944	0.62s / 1.05s	100%
2.25	2089	0.63s / 1.23s	100%
2.4 포화	2626	0.81s / 2.22s	100%

Artificial Analysis 기준에 따라 GLM-5.2 단일 스트림에서 10k 입력 토큰/1.5k 출력 토큰 기준 213 tok/s를 달성함
이 수치는 Artificial Analysis 리더보드 최상위는 아니지만, 성능당 비용에서는 우위가 있다고 봄
테스트는 TensorWave의 AMD MI355X 용량에서 서빙됨

양자화와 추론 프레임워크 선택

첫 단계는 양자화와 프레임워크 선택이었고, Wafer는 bf16 기반 GLM-5.2를 AMD Quark로 MXFP4 양자화함
z-ai의 공식 FP8 양자화와 비교해 MXFP4는 GPQA-Diamond, tau2, GSM8K에서 손실이 없는 수준으로 평가됨

평가	FP8 기준	MXFP4	Δ
GSM8K, 200문항, 5-shot, greedy	0.965 ± 0.013	0.955 ± 0.014	−0.010
GPQA-Diamond, 198문항 × 2 seeds, temp 1.0	0.9217 ± 0.027	0.9026 ± 0.029	−0.019
tau2 macro	0.819	0.834	+0.015

추론 프레임워크 후보는 vLLM, ATOM, sglang 3가지였음
- vLLM은 MXFP4 + GlmMoeDsa 경로가 동작하지 않아 MXFP4 가중치의 이점을 활용하지 못함
- ATOM은 긴 컨텍스트에서 출력 품질이 저하됨
- sglang은 네이티브 지원까지의 마찰이 가장 적고, 양자화를 활용하면서도 일관된 출력을 유지함

speculative decode를 막던 두 가지 문제

처리량 개선을 위해 sglang에서 speculative decode를 활성화하려 했지만, sglang ROCm 이미지는 이를 기본 지원하지 않았음
MTP가 제대로 동작하려면 두 가지 수정이 필요했음
첫 번째 문제는 MTP head의 shared expert가 bf16으로 저장되지만, sglang의 양자화 조회가 모듈 prefix 불일치 때문에 이를 MXFP4로 빌드하려 한 점임
- Quark는 bf16 shared expert를 model.layers.78.mlp.shared_experts.*로 이름 붙임
- MTP layer의 실제 prefix는 model.decoder.*임
- 이 불일치 때문에 로드 시 full-width bf16 가중치를 half-width 4-bit 슬롯에 읽으려 하며 shape mismatch로 초기화가 실패함
- Wafer는 layer 78 항목을 sglang이 실제 사용하는 decoder 이름으로 한 번 더 복사해 speculative decode를 열었고, 단일 스트림 처리량이 거의 3배 증가함
두 번째 문제는 z-ai가 제안한 5/1/6 설정 같은 깊은 speculative decode가 막힌 점임
- draft depth 4 이상에 필요한 fused multi-step metadata 커널이 ROCm guard 없이 #include <cuda_runtime.h>를 작성함
- #ifdef USE_ROCM guard 하나로 수정함
speculative decode가 정상 동작한 뒤 --kv-cache-dtype fp8_e4m3, --enable-aiter-allreduce-fusion 같은 설정 최적화를 더해 단일 스트림 디코드 213 tok/s에 도달함

집계 처리량 병목과 MoE 튜닝

정의한 워크로드에서는 디코드 최적화만으로 충분하지 않았고, 20k 입력과 60% 캐시 조건에서 주된 병목은 prefill이었음
단일 스트림 디코드에 맞춘 TP8 구성에서 MI355X는 GLM-5.2-MXFP4를 1461 tok/s/node로 실행함
TP4×DP2로 전환하자 같은 워크로드에서 1944 tok/s/node와 2.0 RPS를 달성함
다만 Wafer가 측정한 Blackwell 성능은 3.0 RPS에서 3192 tok/s/node였고, MI355X의 prefill 성능은 상대적으로 느렸음
sglang 이미지에서 GLM-5.2의 fp4 MoE가 느린 FlyDSL 휴리스틱 fallback으로 조용히 떨어진 점이 큰 이유였음
- aiter는 a8w8/fp8 경로에 대해서만 튜닝된 설정을 제공함
- Wafer는 GLM의 fp4 shape에 맞춰 MoE 커널 선택을 직접 튜닝함
- 대상 shape는 model_dim 6144, moe_inter 2048, E=256, topk=8
이 튜닝으로 집계 처리량은 2626 tok/s/node와 2.4 RPS에 도달함

AMD에서 SOTA 성능을 내는 데 필요한 것

MI355X에서 최고 성능당 비용을 달성하는 과정에는 어느 정도 마찰이 있었지만, 특별히 어렵지는 않은 수준으로 평가됨
Qwen3.5 397B 작업과 달리 이번에는 커스텀 커널을 작성하지 않았음
이번 연구는 멀티 노드 성능을 고려하지 않았지만, 단일 노드 배포는 실제 환경에서 여전히 널리 쓰임
AMD에서 SOTA 성능을 내는 문제는 점점 소프트웨어 자체보다 지원의 문제가 되고 있음
CUDA moat는 실시간으로 약해지고 있다는 결론임

GN⁺ 3시간전 [-]

Hacker News 의견들

이런 비교에는 와트당 성능도 지표로 넣어줬으면 함. AMD가 실제 성능 대비 비용에서 어느 위치인지 알고 싶음
미국 밖에 데이터센터를 지으려는 회사들과 얘기해보면, Nvidia 물량을 충분한 규모로 확보하기가 어렵다고 함
AMD가 와트당 성능에서 경쟁력 있고 소프트웨어 지원도 대체로 믿을 만하다면, 미국 밖에서는 전기요금이 상대적으로 비싼 경우가 많아 꽤 중요함
적절한 가격으로 소규모 데이터센터를 가능하게 만든다면, Nvidia 공급이 제한적인 지역에서 AMD가 스택의 일부가 될 수 있어 보임
다만 AMD GPU 조달이 실제로 어떤지는 잘 모르겠고, 미국의 Wafer와 몇몇 회사를 빼면 AMD를 쓰는 회사를 거의 본 적이 없어 Nvidia 버블 안에 갇힌 건지도 모르겠음
- DGX B200은 대략 50만 달러이고 전력은 약 14kW를 씀
  8년 동안 100%로 계속 돌린다고 가정하면 약 1GWh인데, 독일처럼 전기료가 비싼 곳에서도 약 10만 유로 수준이라 초기 장비값 50만 달러에 비하면 8년에 걸친 비용으로는 크지 않음
  고전력 소비의 진짜 문제는 전기요금보다 데이터센터에 끌어올 수 있는 전력 공급 한도임. 더 효율적인 구성이 좋다는 건 제한된 전력 인입 안에 더 많은 장비를 넣을 수 있다는 뜻임
- AMD를 쓰는 곳이 몇 군데 있고, 실험을 시작한 곳은 더 많음. 다만 AMD는 이 분야에서 오랫동안 실망을 줬기 때문에 드디어 경쟁이 생긴다고 낙관하기는 조심스러움
  시장에는 Nvidia의 실질적 경쟁자가 정말 필요하고, 특히 성능/와트가 중요함
- Meta가 AMD를 쓰고 있음: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
  OpenAI도 마찬가지임: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
- AMD가 지난 여러 해 동안 비디오게임 콘솔의 하드웨어 쪽을 사실상 장악해왔다는 점도 기억할 만함. 당장 끝날 조짐도 없음
- 보통 Nvidia가 주문을 다 채워주지 못하는 회사라면 적어도 일부 AMD GPU는 갖고 있음
멋지긴 하지만 실제 사용에서 FP4 양자화가 사실상 무손실인 경우는 거의 없음. 많은 제공사가 Kimi와 GLM에서 높은 초당 토큰 수를 광고하지만, 모델이 기능적으로 절제된 상태가 되어 더 이상 최전선 품질에 가깝지 않음
이게 사실이 아니면 좋겠음
- Kimi는 INT4를 기본 형식으로 쓰므로, 그 모델에는 “4비트 정밀도보다 더 좋다”는 개념이 없음
  이는 16비트 정밀도가 기본이고 8비트도 흔히 쓰이는 GLM과 다름
- MI355X는 FP4와 같은 속도로 FP6 연산을 할 수 있음. AMD만의 특징임
  그래서 사람들은 거의 무손실에 가깝고 FP8보다는 FP4 성능에 훨씬 가까운 MXFP6 양자화를 만들어야 함
- Nvidia도 NVFP4가 무손실이라고 주장하지 않나?
  Nvidia가 NVFP4로 변환한 모델을 GLM 5.2 말고 충분히 테스트해보진 않았지만, 내가 보기엔 괜찮았음
  직접 써본 결과는 모델마다 들쭉날쭉했음
- 나도 가장 먼저 그 부분이 눈에 띄었음
- 기억으로는 정확도의 96~98% 정도였던 것 같음
더 빠르고 싸게 개선하는 경로를 논할 줄 알았는데, 이 글에서는 양자화 버전을 전체 버전과 같은 가격에 제공하고, 빠른 버전은 훨씬 비싸게 파는 것처럼 보임
이건 거의 당연한 것 아닌가? 달러당 성능은 래칫처럼 한 방향으로 좋아져야 함. 더 비싼 것이 더 싼 것을 어떻게 대체하겠음?
이런 글 제목에는 양자화 방식을 명시하지 않으면 불법으로 만들어야 한다고 봄
- MXFP4임
- 제목에 “Why this matters”를 쓰는 것도 금지했으면 함
- 좋은 필터는 끝이 .ai인지 확인하는 것임. 그게 보이면 저노력, 클릭베이트, 얕은 글, 쓸모없는 글, 사기성 글일 가능성이 매우 높음
메모리 내 연산과 뉴로모픽 패러다임은 앞으로 10년 동안 이 흐름을 훨씬 더 밀어붙일 가능성이 큼
더 급진적인 개선이 연구실 밖으로 나오면서 결국 새로운 소재와 나노 소자가 들어가고, 효율은 여러 자릿수 단위로 좋아질 수 있음
MRAM 같은 기존 기술을 키우는 것만으로도 여지가 있음
fp8에서 mxfp4로 바꾸면서 정확도 저하가 눈에 띄게 생김
- Wafer는 출시 몇 주 만에 자체 플래그십 코딩 요금제인 Wafer Pass를 중단했고, 비례 환불까지 해야 했음
  그런데도 구현이 명백히 부족한데 양자화로 비용을 더 낮췄다고 자랑하고 있음
  [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
- 그런데도 어떻게든 “무손실”이라고 주장했음
새로운 현상은 아님. 달러당 성능은 1900년쯤부터 꽤 꾸준히 지수적으로 좋아져 왔음
1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...
Blackwell과 경쟁하는 건 놀랍지 않음. Rubin은 추론에서 Blackwell보다 5배 빠르고, Blackwell은 Nvidia가 추론에 특화해 최적화하지 않은 마지막 세대임
내가 놓친 게 있다면 알려줬으면 함
- Rubin에서 추론에 최적화됐다고 할 만한 특별한 점이 무엇인지는 매우 불분명함
  프리필 노드와 디코딩 노드를 분리하는 분리형 구성은 보이지만, 그 밖에 뭐가 있는지 모르겠음
- 추론이 메모리 대역폭에 묶여 있는데 어떻게 추론을 5배 빠르게 만들 수 있나? H100의 5배 메모리 대역폭을 얻는 건 물리적으로 어려워 보임
특히 여러 통화가 약세를 보이는 상황에서는 더 그렇음

답변달기

달러당 성능이 더 빠르고 저렴해지고 있음

AMD 추론 비용과 NVIDIA 소프트웨어 격차

GLM-5.2 on MI355X 성능

양자화와 추론 프레임워크 선택

speculative decode를 막던 두 가지 문제

집계 처리량 병목과 MoE 튜닝

AMD에서 SOTA 성능을 내는 데 필요한 것

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들