아마존, 새로운 AI 칩 Trainium3 공개 및 Nvidia와의 협력 로드맵 예고
(techcrunch.com)- AWS가 3나노미터 공정의 Trainium3 칩을 탑재한 Trainium3 UltraServer를 공개하며 AI 학습 및 추론 성능을 대폭 향상
- 새 시스템은 이전 세대 대비 4배 빠른 속도와 4배 많은 메모리, 40% 높은 에너지 효율을 제공
- 최대 100만 개의 Trainium3 칩을 연결할 수 있어 대규모 AI 애플리케이션 처리에 적합
- Anthropic, Karakuri, SplashMusic, Decart 등 고객이 이미 사용 중이며 추론 비용 절감 효과 확인
- AWS는 차세대 Trainium4 칩이 Nvidia NVLink Fusion을 지원해 Nvidia GPU와 상호운용 가능할 것이라 밝혀, AI 인프라 경쟁에서 중요한 전환점으로 평가됨
Trainium3 공개
- AWS는 re:Invent 2025 행사에서 Trainium3 UltraServer를 공식 발표
- 이 시스템은 3나노미터 Trainium3 칩과 AWS 자체 네트워킹 기술로 구동
- AI 학습과 추론 모두에서 2세대 대비 성능이 크게 향상된 것으로 설명됨
- AWS는 Trainium3 시스템이 4배 빠른 처리 속도와 4배 많은 메모리 용량을 제공한다고 밝힘
- 각 UltraServer는 144개의 칩을 탑재
- 수천 대의 서버를 연결해 최대 100만 개의 칩을 하나의 애플리케이션에 활용 가능
- 새 칩은 에너지 효율이 40% 향상되어, 대규모 데이터센터의 전력 소비를 줄이는 데 기여
- AWS는 이를 통해 AI 클라우드 고객의 비용 절감도 가능하다고 강조
주요 고객 및 활용 사례
-
Anthropic, 일본의 LLM Karakuri, SplashMusic, Decart 등이 이미 Trainium3을 사용 중
- 이들 고객은 추론 비용을 크게 절감했다고 AWS는 설명
- AWS는 이러한 성능 및 비용 효율 개선이 AI 애플리케이션의 확장성을 높이는 기반이 된다고 언급
차세대 칩 Trainium4 로드맵
- AWS는 Trainium4가 이미 개발 중이며, Nvidia의 NVLink Fusion 고속 인터커넥트 기술을 지원할 예정이라고 발표
- 이를 통해 Nvidia GPU와의 상호운용이 가능해지고, AWS의 저비용 서버 랙 기술과 결합 가능
- Nvidia CUDA가 주요 AI 애플리케이션의 표준으로 자리 잡은 상황에서, Trainium4 시스템은 Nvidia GPU 기반 앱의 AWS 클라우드 이전을 용이하게 할 잠재력을 가짐
- Trainium4의 출시 일정은 공개되지 않았으며, 다음 해 re:Invent 행사에서 추가 정보가 나올 가능성이 있음
에너지 효율과 비용 절감의 전략적 의미
- AWS는 데이터센터의 전력 사용이 급증하는 상황에서 “더 적게 소비하는 시스템” 을 구축 중
- 이러한 접근은 운영비 절감과 지속가능성 확보라는 두 가지 목표를 동시에 달성하려는 시도로 평가됨
- AWS의 비용 절감 중심 전략은 AI 인프라 경쟁에서 클라우드 고객 유치력 강화로 이어질 가능성 있음
요약
- Trainium3은 성능·메모리·효율성 모두에서 대폭 향상된 3세대 AI 칩
- Trainium4는 Nvidia와의 호환성을 통해 AWS 생태계 확장을 목표로 함
- AWS는 고성능·저비용·친환경 AI 인프라를 동시에 추구하며, AI 클라우드 시장 경쟁력 강화를 노림
Hacker News 의견
- 우리 팀은 AWS 담당자에게 Trainium이나 Inferentia 인스턴스에는 관심이 없다고 여러 번 말했음
표준 라이브러리인 Transformers나 PyTorch와 안정적으로 호환된다는 확실한 증거가 없기 때문임
AWS는 잘 작동한다고 주장하지만, 그건 그들만의 특정 AMI와 neuron SDK에서만 가능한 ‘행복 경로’임
실제로 우리 의존성을 써서 작업하면 바로 무너짐
GCP의 TPU도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음
AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음- AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 베타 서비스 투성이임
안정적인 건 소수고, 나머지는 거친 부분이 많음 - 구글은 TPU를 생태계에 녹이기 위해 엄청난 노력을 했음
아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움 - 스포일러지만, 커스텀 코드를 많이 짜지 않으면 작동하지 않음
- AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 베타 서비스 투성이임
- SageMaker에서 LMI 컨테이너를 직접 빌드하려다 지옥을 경험했음
vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 60초 타임아웃 때문에 쓸 수 없음
이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함 - AWS는 Trainium에 대해 거창한 말을 하지만, 무대에 나와 칭찬하는 고객은 한 명도 없음
실제로 써본 사람들은 배포와 운영의 고통 때문에 포기했다고 함
내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음
그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄-
Inf1/Inf2 스팟 인스턴스는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함
Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함 -
Anthropic도 Trainium을 많이 쓴다고 들었음
아마 AWS의 전폭적인 지원을 받는 듯함
SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
-
Inf1/Inf2 스팟 인스턴스는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함
-
Block floating point (MXFP8/4) 개념이 흥미로움
AI가 수십 년간 변하지 않던 기본 데이터 타입을 밀어붙이고 있음
Block floating point 위키 문서 - 기사에서 정작 이 칩이 무엇을 하는지 한 번도 설명하지 않았다는 게 흥미로움
- 핵심은 여러 개의 128x128 systolic array 구조임
자세한 내용은 Semianalysis 뉴스레터 참고 - 이름 그대로 Training용 칩임
- 결국 벡터 연산을 수행하는 칩임
- 아마 이 칩의 진짜 임무는 주주를 만족시키는 것이라 개발자에게 설명할 필요가 없다고 생각한 듯함
- 핵심은 여러 개의 128x128 systolic array 구조임
- 성능이나 벤치마크에 대한 언급이 전혀 없음
- “4배 더 많다”고는 하지만, 4배 더 빠르다는 뜻도 아니고, 4배 더 많은 메모리라지만 기준이 없음
- 진짜 뉴스는 “Nvidia 친화적 로드맵”이라는 부분임
아마존이 AI에서도 물류처럼 비용 절감을 노리는 듯함
하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 체면용 전략으로 보임 - NVLink가 확산되는 게 흥미로움
Intel도 참여 중이고, 이는 마치 PCI → AGP 전환기 같은 순간임
AMD는 예전 HyperTransport 시절엔 기회를 잡을 뻔했지만, 지금의 Infinity Fabric은 내부용에 그침
UALink나 CXL도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음
이상적으로는 칩에 네트워킹 통합이 기본으로 들어가야 함
예전 Intel Xeon이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼-
NVLink Fusion은 결국 Nvidia 종속의 덫처럼 보임
Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임
AMD라면 SolarFlare NIC를 I/O 다이에 넣는 게 낫다고 생각함
PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, UEC는 너무 틈새 시장일 수도 있음
-
NVLink Fusion은 결국 Nvidia 종속의 덫처럼 보임
- 아마존 공식 포스트: Trainium 3 UltraServer 소개