# 아마존, 새로운 AI 칩 Trainium3 공개 및 Nvidia와의 협력 로드맵 예고

> Clean Markdown view of GeekNews topic #24787. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24787](https://news.hada.io/topic?id=24787)
- GeekNews Markdown: [https://news.hada.io/topic/24787.md](https://news.hada.io/topic/24787.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-12-03T09:27:11+09:00
- Updated: 2025-12-03T09:27:11+09:00
- Original source: [techcrunch.com](https://techcrunch.com/2025/12/02/amazon-releases-an-impressive-new-ai-chip-and-teases-a-nvidia-friendly-roadmap/)
- Points: 2
- Comments: 1

## Topic Body

- AWS가 **3나노미터 공정의 Trainium3 칩**을 탑재한 **Trainium3 UltraServer**를 공개하며 AI 학습 및 추론 성능을 대폭 향상  
- 새 시스템은 이전 세대 대비 **4배 빠른 속도와 4배 많은 메모리**, **40% 높은 에너지 효율**을 제공  
- 최대 **100만 개의 Trainium3 칩**을 연결할 수 있어 대규모 AI 애플리케이션 처리에 적합  
- **Anthropic, Karakuri, SplashMusic, Decart** 등 고객이 이미 사용 중이며 **추론 비용 절감 효과** 확인  
- AWS는 차세대 **Trainium4 칩**이 **Nvidia NVLink Fusion**을 지원해 **Nvidia GPU와 상호운용** 가능할 것이라 밝혀, AI 인프라 경쟁에서 중요한 전환점으로 평가됨  

---

### Trainium3 공개
- AWS는 **re:Invent 2025** 행사에서 **Trainium3 UltraServer**를 공식 발표  
  - 이 시스템은 **3나노미터 Trainium3 칩**과 **AWS 자체 네트워킹 기술**로 구동  
  - AI 학습과 추론 모두에서 **2세대 대비 성능이 크게 향상**된 것으로 설명됨  
- AWS는 Trainium3 시스템이 **4배 빠른 처리 속도**와 **4배 많은 메모리 용량**을 제공한다고 밝힘  
  - 각 UltraServer는 **144개의 칩**을 탑재  
  - 수천 대의 서버를 연결해 **최대 100만 개의 칩**을 하나의 애플리케이션에 활용 가능  
- 새 칩은 **에너지 효율이 40% 향상**되어, 대규모 데이터센터의 전력 소비를 줄이는 데 기여  
  - AWS는 이를 통해 **AI 클라우드 고객의 비용 절감**도 가능하다고 강조  

### 주요 고객 및 활용 사례
- **Anthropic**, **일본의 LLM Karakuri**, **SplashMusic**, **Decart** 등이 이미 Trainium3을 사용 중  
  - 이들 고객은 **추론 비용을 크게 절감**했다고 AWS는 설명  
- AWS는 이러한 성능 및 비용 효율 개선이 **AI 애플리케이션의 확장성**을 높이는 기반이 된다고 언급  

### 차세대 칩 Trainium4 로드맵
- AWS는 **Trainium4**가 이미 개발 중이며, **Nvidia의 NVLink Fusion 고속 인터커넥트 기술**을 지원할 예정이라고 발표  
  - 이를 통해 **Nvidia GPU와의 상호운용**이 가능해지고, **AWS의 저비용 서버 랙 기술**과 결합 가능  
- **Nvidia CUDA**가 주요 AI 애플리케이션의 표준으로 자리 잡은 상황에서, Trainium4 시스템은 **Nvidia GPU 기반 앱의 AWS 클라우드 이전을 용이하게 할 잠재력**을 가짐  
- Trainium4의 출시 일정은 공개되지 않았으며, **다음 해 re:Invent 행사에서 추가 정보**가 나올 가능성이 있음  

### 에너지 효율과 비용 절감의 전략적 의미
- AWS는 데이터센터의 전력 사용이 급증하는 상황에서 **“더 적게 소비하는 시스템”** 을 구축 중  
- 이러한 접근은 **운영비 절감**과 **지속가능성 확보**라는 두 가지 목표를 동시에 달성하려는 시도로 평가됨  
- AWS의 **비용 절감 중심 전략**은 AI 인프라 경쟁에서 **클라우드 고객 유치력 강화**로 이어질 가능성 있음  

### 요약
- Trainium3은 **성능·메모리·효율성 모두에서 대폭 향상된 3세대 AI 칩**  
- **Trainium4는 Nvidia와의 호환성**을 통해 AWS 생태계 확장을 목표로 함  
- AWS는 **고성능·저비용·친환경 AI 인프라**를 동시에 추구하며, **AI 클라우드 시장 경쟁력 강화**를 노림

## Comments


### Comment 47102

- Author: neo
- Created: 2025-12-03T09:27:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46125155) 
- 우리 팀은 AWS 담당자에게 **Trainium**이나 **Inferentia** 인스턴스에는 관심이 없다고 여러 번 말했음  
  표준 라이브러리인 **Transformers**나 **PyTorch**와 안정적으로 호환된다는 확실한 증거가 없기 때문임  
  AWS는 잘 작동한다고 주장하지만, 그건 그들만의 **특정 AMI**와 **neuron SDK**에서만 가능한 ‘행복 경로’임  
  실제로 우리 의존성을 써서 작업하면 바로 무너짐  
  GCP의 **TPU**도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음  
  AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음
  - AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 **베타 서비스** 투성이임  
    안정적인 건 소수고, 나머지는 거친 부분이 많음
  - 구글은 TPU를 생태계에 녹이기 위해 엄청난 노력을 했음  
    아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움
  - 스포일러지만, 커스텀 코드를 많이 짜지 않으면 **작동하지 않음**
- SageMaker에서 **LMI 컨테이너**를 직접 빌드하려다 지옥을 경험했음  
  vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 **60초 타임아웃** 때문에 쓸 수 없음  
  이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함
- AWS는 Trainium에 대해 거창한 말을 하지만, 무대에 나와 칭찬하는 고객은 한 명도 없음  
  실제로 써본 사람들은 **배포와 운영의 고통** 때문에 포기했다고 함  
  내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음  
  그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄
  - **Inf1/Inf2 스팟 인스턴스**는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함  
    Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함
  - **Anthropic**도 Trainium을 많이 쓴다고 들었음  
    아마 AWS의 전폭적인 지원을 받는 듯함  
    SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
- **Block floating point (MXFP8/4)** 개념이 흥미로움  
  AI가 수십 년간 변하지 않던 기본 데이터 타입을 밀어붙이고 있음  
  [Block floating point 위키 문서](https://en.wikipedia.org/wiki/Block_floating_point)
- 기사에서 정작 이 칩이 **무엇을 하는지** 한 번도 설명하지 않았다는 게 흥미로움
  - 핵심은 여러 개의 **128x128 systolic array** 구조임  
    자세한 내용은 [Semianalysis 뉴스레터](https://newsletter.semianalysis.com/p/amazons-ai-self-sufficiency-trainium2-architecture-networking) 참고
  - 이름 그대로 **Training**용 칩임
  - 결국 **벡터 연산**을 수행하는 칩임
  - 아마 이 칩의 진짜 임무는 **주주를 만족시키는 것**이라 개발자에게 설명할 필요가 없다고 생각한 듯함
- 성능이나 **벤치마크**에 대한 언급이 전혀 없음
  - “4배 더 많다”고는 하지만, 4배 더 빠르다는 뜻도 아니고, 4배 더 많은 메모리라지만 기준이 없음
- 진짜 뉴스는 “**Nvidia 친화적 로드맵**”이라는 부분임  
  아마존이 AI에서도 물류처럼 **비용 절감**을 노리는 듯함  
  하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 **체면용 전략**으로 보임
- NVLink가 확산되는 게 흥미로움  
  Intel도 참여 중이고, 이는 마치 **PCI → AGP 전환기** 같은 순간임  
  AMD는 예전 **HyperTransport** 시절엔 기회를 잡을 뻔했지만, 지금의 **Infinity Fabric**은 내부용에 그침  
  **UALink**나 **CXL**도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음  
  이상적으로는 칩에 **네트워킹 통합**이 기본으로 들어가야 함  
  예전 **Intel Xeon**이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼  
  - **NVLink Fusion**은 결국 **Nvidia 종속**의 덫처럼 보임  
    Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임  
    AMD라면 **SolarFlare NIC**를 I/O 다이에 넣는 게 낫다고 생각함  
    PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, **UEC**는 너무 틈새 시장일 수도 있음
- 아마존 공식 포스트: [Trainium 3 UltraServer 소개](https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost)