1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • AMD Instinct MI355X GPU는 두 배의 AI 연산 성능, 더 많은 HBM 메모리, NVIDIA 대비 토큰/$ 효율 40% 향상
  • ROCm 7 소프트웨어는 성능 개선과 동시에 Day-0 지원을 강조하며 AI 생태계 확장에 집중
  • 랙 스케일 통합 솔루션은 AMD CPU+GPU+네트워크를 결합한 턴키형 AI 인프라 제공
  • 로드맵: 2026년 4배 성능, HBM4, 확장성 포함 차세대 아키텍처와 Helios 랙 공개 예고
  • 에너지 효율: 2030년까지 랙스케일 기준 20배 효율 개선 목표로, 하드웨어와 소프트웨어 동반 혁신 추진

전체 요약

랙 스케일 AI 성장 기반의 AMD 행보

  • AI 하드웨어 수요 급증에 따라 업계 주요 반도체 기업 모두 시장 점유와 성장 가속에 집중하는 흐름임
  • AMD는 Instinct MI300X로 AI 서버용 GPU 시장에 빠르게 진입하며, 최근 핵심 기능과 성능에 올인한 첫 아키텍처 출시 경험을 토대로 성공적인 고마진 매출을 기록함
  • 이에 힘입어 차세대 AI 서버 하드웨어로 입지를 지속적으로 확대하는 전략을 발표함

Instinct MI350 가속기 세부 혁신

AI 연산 성능의 비약적 강화

  • Instinct MI350 시리즈는 새로운 CDNA4 아키텍처 기반으로 MI300X 대비 매트릭스 연산(텐서 연산) 처리량을 클럭당 두 배 이상 높인 구조임
  • FP6, FP4 등 저정밀 실수 처리를 본격 지원해 추론 부담을 줄이면서 전체 연산량도 획기적으로 증대함
  • FP6 연산의 경우, 경쟁사 NVIDIA Blackwell 대비 두 배 속도로 처리하도록 설계되어 성능 우위를 추구함
  • 288GB HBM3E 메모리(8 스택)와 8TB/sec 대역폭 등 메모리 구성도 대폭 업그레이드함
  • TSMC N3P 공정 기반의 초대형 1850억 트랜지스터 칩, 효율적 다이 스태킹 구조로 구현됨

다양한 SKU, 고성능/고전력화 트렌드

  • 액체냉각 전용 MI355X(2.4GHz, 5PFLOPS) 및 공랭 MI350X(2.2GHz, 4.6PFLOPS)로 나뉨
  • 소비전력은 MI300X 대비 높아져, 공랭형이 1000W, 액체냉각형이 1400W임
  • 한 랙당 128개 MI355X 장착시 GPU만으로 180kW급 전력 소모 가능함
  • 가격 경쟁력도 강조되며, NVIDIA 대비 토큰/$ 기준 40% 이상 우위(30% 저렴) 예상임
  • 2024년 3분기부터 파트너사 공급 시작, 실제 공급 속도는 유동적임

ROCm 7 소프트웨어 전략

Day-0 지원과 성능 극대화

  • ROCm 7은 CDNA4, MI350 시리즈 가속기 대응 및 성능, 엔터프라이즈 관리 등 전방위 개선 추진함
  • Pytorch 등 주요 프레임워크의 Day-0 지원이 목표임
  • 2024년 3분기에는 Windows 네이티브 Pytorch, ONNX 런타임, RDNA 4/3 GPU 지원도 시작함
  • 소프트웨어 최적화만으로 MI300X 세대 성능이 ROCm 7에서 ROCm 6 대비 최대 3.8배 향상됨
  • ROCm Enterprise AI를 통해 대규모 AI 클러스터 운영, 모델 파인튜닝 등 엔터프라이즈 특화 툴 제공함

네트워크 생태계 완성: Pollara 400 AI NIC

  • Pensando 인수 이후 AMD 최초의 네트워크 카드인 Pollara 400 AI NIC(400G Ethernet, TSMC N4 공정) 출시
  • 확장성과 프로그래머블 P4 NIC 기능으로 AMD 기반 슈퍼컴퓨터 랙 구성 지원
  • Ultra Ethernet Consortium 호환 최초 AI NIC으로, 차세대 확장 네트워킹 기반 마련

MI400 기반 랙 스케일 미래 로드맵

  • MI400(2026년) : FP8 기준 AI 성능 두 배, HBM4 432GB/19.6TB/sec 대역폭을 목표로 신세대 아키텍처(CDNA Next) 적용
  • Ultra Accelerator Link로 8 GPU → 1024 GPU 스케일업 확장, 대규모 병렬처리 지원
  • Helios 랙시스템: MI400, EPYC Venice(6세대), Vulcano(800G NIC) 결합, 차세대 진영(NVIDIA Vera Rubin) 대비 메모리/네트워크 우위 강조
  • 오픈된 로드맵을 통해 매년 CPU, GPU, 랙 시스템 핵심 아키텍처 혁신 계획 제시
  • 2030년까지 랙 스케일 에너지 효율 20배, 전체 효율 100배 향상을 목표로 하드웨어·소프트웨어 최적화에 매진함

결론

  • AMD는 Instinct MI350~Helios 시리즈, CDNA 4~Next, 랙 스케일 턴키 솔루션 등으로 AI 인프라 시장의 차별화된 리더십 확보를 노림
  • 가까운 시기엔 새로운 MI350, CDNA4 아키텍처 및 ROCm 7 소프트웨어가 주축이 될 전망임
  • NVIDIA와의 AI 서버 시장 경쟁에서 성능, 비용, 확장성, 효율성 모두를 강화하려는 전략 전개
Hacker News 의견
  • ROCm 활용은 정말 케이스마다 천차만별이라는 느낌, 그리고 소비자용 그래픽카드 지원도 솔직히 신뢰하기 어려운 수준이라는 생각, 대안이었으면 좋겠다는 바람이 있었지만 CUDA로 갈아탄 이후 골치 아픈 문제와 시간 낭비를 크게 줄일 수 있었던 경험, 특히 HIP에서 MiOpen 벤치마크를 돌리는 데 시간이 너무 오래 걸리는 문제

  • 2010년쯤부터 과학계산용으로 CUDA가 뜨기 시작한 이래, 같은 이야기가 반복되어 왔다는 느낌, 15년이 지난 지금에도 AMD가 그 성공 방식을 못 따라잡은 점이 이해가 안 가고, 이미 NVIDIA가 소프트웨어 생태계를 완전히 장악한 지금은 늦은 감이 큰 현실

  • AMD가 제공하는 소프트웨어에 대해 잘 아는 사람이 전체적 개요를 설명해줬으면 하는 바람, Neural network 추론이나 학습이 실제로 가능한 SDK가 뭔지 궁금, 옵션이 너무 많아서 한동안 찾아보기도 했지만 방향성이 너무 여러 군데로 분산되어 있는 느낌, 그래서 어디로 가고 있는지 알아내기 어렵다는 생각

  • Jensen이 CUDA 스택과 워크스테이션 분야에서 확실한 노하우가 있다는 감각, AMD는 하드웨어의 크기만 키우는 것이 아니라 이런 스택 자체를 뛰어넘어야 한다는 현실 인식, 시장의 대다수 사람들이 시장점유율 10%도 안 되는 구조를 위해 오래 공부하며 복잡한 스택을 공부하려 하지 않는 상황

  • CUDA API를 직접 호출하는 개발자는 거의 없다는 현실, 그래서 AMD가 주력할 부분은 ROCm 백엔드를 XLA와 PyTorch에 제대로 연결하는 게 핵심이라는 생각, 이것만 잘 해도 상당한 시장을 뚫을 수 있을 것이란 기대, 그리고 10여년 전 Nvidia처럼 AMD도 아예 공짜로 GPU를 대학 등에 뿌리면서 연구자 생태계를 키워야 한다고 봄, 요즘 AI 연산자원 부족으로 대학들은 2~3세대나 지난 하드웨어만 쓰는 경우가 대부분, 만약 AMD가 절반 가격에 안정되는 GPU를 제공하면 박사 과정 학생들이 자연스럽게 AMD 생태계로 들어오고, 이 경험이 산업계에도 연결될 수 있다는 주장

  • 사람들이 CUDA를 얘기할 때 주로 C언어만 떠올리는데, 실제로는 CUDA 3.0부터 C++이 기본, Fortran 지원도 포함, NVIDIA는 다양한 언어가 PTX 환경을 활용할 수 있도록 적극 지원, 2025년에는 Python CUDA JIT DSL도 도입 계획, 최신 버전이 아니더라도 CUDA SDK는 엔트리급 노트북에서도 동작하니 하드웨어가 약해도 천천히 배울 수 있다는 장점

  • 엔트리급 하드웨어 소프트웨어 지원에 대해 좋지 않은 이야기를 많이 들었다는 점, 진입장벽이 낮은 입구(in-ramp)가 매우 중요하다고 인식, 반대로 데이터센터용 하드웨어를 강조하면 포트폴리오 자체는 소규모로 압축하면서 클라우드 제공업체를 통해 더 넓은 접근성을 확보할 수 있다는 생각, MI350-A 워크스테이션과 같은 초심자용 장비가 나왔으면 좋겠지만 실제로 이뤄지기 힘들다는 현실

  • 지금 시점에서 보면 AMD 내부적으로 심각한 문제로 인해 소프트웨어 스택이 미진하다고 생각, 여러 문제에 대해 고객 목소리 듣고 팀 확충할 시간은 충분했는데도 실제 진전은 별로 없다는 뉘앙스, 보상 유인도 큰데 변화가 적다고 느낌, Lisa Su CEO는 훌륭한 경영자라는 데 동의하지만 아무래도 하드웨어 출신이라 소프트웨어 혁신에 덜 적극적인 게 아닐까 하는 고민

  • ROCm 지원 여부는 아직 일반 AI 사용자에겐 큰 이슈가 아니라는 의견, 약 10년 전부터 표준 AMD 드라이버에 포함된 Vulkan API 덕분에 llama.cpp나 LM Studio 등 주요 원클릭 LLM앱도 돌아가는 상황, 속도는 느리지만 실제로 활용 가능한 환경

  • NVIDIA와 AMD의 미래 경쟁 구도에 대해 다소 유머러스하게, "먼 훗날 그 미래가 현실이 됐을 때 우리가 먼저 연락하겠다"는 농담성 발언

  • "Bob Page가 이걸 이끌고 있나"라는 짧은 의문 제기

  • "Atropos log, abandoning Helios"라는 게임 대사에 감정적 반응이 든다는 이야기, 관련 뉴스가 나올 때마다 떠오르는 느낌

  • AMD가 H100을 능가하는 훈련용 칩을 만들어주길 바라는 희망

  • 지난해 MI300X로 학습할 때 문제가 좀 있었고, 겨우 돌아가도 H100대비 20~30% 느린 경험, 최근에는 최신 ROCm과 PyTorch 세팅으로 OpenRLHF(transformers/DeepSpeed 기반) DPO 훈련을 해 보니, 짧은 12시간 단위 작업에서는 거의 H200과 GPU 시간당 성능이 비슷하게 나오는 경향, 예전엔 8개짜리 노드로 테스트했고, 지금은 단일 MI300X GPU로 실험 중이라 완전히 공정한 비교가 아니고, 멀티-GPU 혹은 멀티 노드 훈련은 여전히 미지수라 단일 샘플이라는 점 참고 바람

  • H100이 이미 출시된 지 3년이나 됐다는 점을 생각하면 더 큰 갭이 느껴짐, 혁신 속도의 체감

  • 상대적으로 느린 칩을 말하는 걸로 이해, 사실 MI300 시리즈가 이미 H100을 앞서고 MI400도 곧 출시될 수 있다는 논조

  • 실제로 중요한 건, "소프트웨어++: ROCm 7 Released"의 주요 내용 중에서 내가 CUDA처럼 일반 소비자 노트북에서 쓸 수 있는 게 얼마나 되는지의 여부

  • 솔직히 해당 기사 읽는 게 힘들었고, 기사 작성자에게는 mi355 한 대 줘도 아깝지 않을 정성이라고 생각, AMD가 기사에서 기대만큼 신뢰받을 이유가 전혀 없다는 점, RDNA4 라인업을 ROCm에서 몇 달씩 지원하지 않은 점이 결정적으로 아쉬움, AMD는 일정상 day 120에 맞춰 지원 가능하다는 무책임한 태도, 그리고 벤치마크에서 성능이 실제 어느 부분에서 나오는지 명확히 밝히지 않은 점, 분명히 FP4 성능을 FP8이나 16과 비교한 결과를 제시하며 잘못 인용하는 것 같다는 강한 의혹

  • ROCm을 소비자에게 제대로 투자하지 않고 지원이 늦는 점이 여전히 충격적이고 당황스럽지만, 최근에 클라이언트 카드에서도 day 1 지원을 하겠다고 공식 발표했다는 소식, 물론 실제로 약속을 지키는 게 핵심이며, AMD도 마침내 ROCm을 스택 전체에 걸쳐 탄탄히 지원하는 게 얼마나 중요한지 깨달은 분위기, Ryzen과 Radeon을 둘 다 만드는 회사라는 점이 기이하게 느껴질 정도, 올해 Radeon은 꽤 잘 나가고 있다 생각하는데 RDNA4 공식 ROCm 지원이 너무 늦어진 건 아쉬움, 그래도 소비자 제품에서 9070 XT와 FSR4 덕분에 첫 인상은 나쁘지 않았고, AMD가 기회를 회피하려 하던 이전과 달리 움직임이 보여서 아주 조심스럽게 낙관, 이런 약속이 오래 가길 바라는 심정, 관련 링크

  • AMD는 소비자용 GPU에서 컴퓨팅 지원에 관심이 별로 없고, 데이터센터용 GPU에서는 꽤 좋은 소프트웨어 스택과 지원을 제공한다는 현실

  • '이 글에서 AMD에 신뢰를 너무 주는 것 같다'는 원 코멘트 인용에 대해, 혹시 AnandTech 등에서 유명한 Ryan Smith를 가리키는지 재확인, 링크

  • AMD는 이제 마케팅 회사라는 주장, 본질적으로 기술력이 아닌 마케팅으로 시장에서 승부한다는 뉘앙스