1P by GN⁺ 22시간전 | ★ favorite | 댓글 1개
  • AWS가 3나노미터 공정의 Trainium3 칩을 탑재한 Trainium3 UltraServer를 공개하며 AI 학습 및 추론 성능을 대폭 향상
  • 새 시스템은 이전 세대 대비 4배 빠른 속도와 4배 많은 메모리, 40% 높은 에너지 효율을 제공
  • 최대 100만 개의 Trainium3 칩을 연결할 수 있어 대규모 AI 애플리케이션 처리에 적합
  • Anthropic, Karakuri, SplashMusic, Decart 등 고객이 이미 사용 중이며 추론 비용 절감 효과 확인
  • AWS는 차세대 Trainium4 칩Nvidia NVLink Fusion을 지원해 Nvidia GPU와 상호운용 가능할 것이라 밝혀, AI 인프라 경쟁에서 중요한 전환점으로 평가됨

Trainium3 공개

  • AWS는 re:Invent 2025 행사에서 Trainium3 UltraServer를 공식 발표
    • 이 시스템은 3나노미터 Trainium3 칩AWS 자체 네트워킹 기술로 구동
    • AI 학습과 추론 모두에서 2세대 대비 성능이 크게 향상된 것으로 설명됨
  • AWS는 Trainium3 시스템이 4배 빠른 처리 속도4배 많은 메모리 용량을 제공한다고 밝힘
    • 각 UltraServer는 144개의 칩을 탑재
    • 수천 대의 서버를 연결해 최대 100만 개의 칩을 하나의 애플리케이션에 활용 가능
  • 새 칩은 에너지 효율이 40% 향상되어, 대규모 데이터센터의 전력 소비를 줄이는 데 기여
    • AWS는 이를 통해 AI 클라우드 고객의 비용 절감도 가능하다고 강조

주요 고객 및 활용 사례

  • Anthropic, 일본의 LLM Karakuri, SplashMusic, Decart 등이 이미 Trainium3을 사용 중
    • 이들 고객은 추론 비용을 크게 절감했다고 AWS는 설명
  • AWS는 이러한 성능 및 비용 효율 개선이 AI 애플리케이션의 확장성을 높이는 기반이 된다고 언급

차세대 칩 Trainium4 로드맵

  • AWS는 Trainium4가 이미 개발 중이며, Nvidia의 NVLink Fusion 고속 인터커넥트 기술을 지원할 예정이라고 발표
    • 이를 통해 Nvidia GPU와의 상호운용이 가능해지고, AWS의 저비용 서버 랙 기술과 결합 가능
  • Nvidia CUDA가 주요 AI 애플리케이션의 표준으로 자리 잡은 상황에서, Trainium4 시스템은 Nvidia GPU 기반 앱의 AWS 클라우드 이전을 용이하게 할 잠재력을 가짐
  • Trainium4의 출시 일정은 공개되지 않았으며, 다음 해 re:Invent 행사에서 추가 정보가 나올 가능성이 있음

에너지 효율과 비용 절감의 전략적 의미

  • AWS는 데이터센터의 전력 사용이 급증하는 상황에서 “더 적게 소비하는 시스템” 을 구축 중
  • 이러한 접근은 운영비 절감지속가능성 확보라는 두 가지 목표를 동시에 달성하려는 시도로 평가됨
  • AWS의 비용 절감 중심 전략은 AI 인프라 경쟁에서 클라우드 고객 유치력 강화로 이어질 가능성 있음

요약

  • Trainium3은 성능·메모리·효율성 모두에서 대폭 향상된 3세대 AI 칩
  • Trainium4는 Nvidia와의 호환성을 통해 AWS 생태계 확장을 목표로 함
  • AWS는 고성능·저비용·친환경 AI 인프라를 동시에 추구하며, AI 클라우드 시장 경쟁력 강화를 노림
Hacker News 의견
  • 우리 팀은 AWS 담당자에게 Trainium이나 Inferentia 인스턴스에는 관심이 없다고 여러 번 말했음
    표준 라이브러리인 TransformersPyTorch와 안정적으로 호환된다는 확실한 증거가 없기 때문임
    AWS는 잘 작동한다고 주장하지만, 그건 그들만의 특정 AMIneuron SDK에서만 가능한 ‘행복 경로’임
    실제로 우리 의존성을 써서 작업하면 바로 무너짐
    GCP의 TPU도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음
    AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음
    • AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 베타 서비스 투성이임
      안정적인 건 소수고, 나머지는 거친 부분이 많음
    • 구글은 TPU를 생태계에 녹이기 위해 엄청난 노력을 했음
      아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움
    • 스포일러지만, 커스텀 코드를 많이 짜지 않으면 작동하지 않음
  • SageMaker에서 LMI 컨테이너를 직접 빌드하려다 지옥을 경험했음
    vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 60초 타임아웃 때문에 쓸 수 없음
    이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함
  • AWS는 Trainium에 대해 거창한 말을 하지만, 무대에 나와 칭찬하는 고객은 한 명도 없음
    실제로 써본 사람들은 배포와 운영의 고통 때문에 포기했다고 함
    내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음
    그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄
    • Inf1/Inf2 스팟 인스턴스는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함
      Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함
    • Anthropic도 Trainium을 많이 쓴다고 들었음
      아마 AWS의 전폭적인 지원을 받는 듯함
      SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
  • Block floating point (MXFP8/4) 개념이 흥미로움
    AI가 수십 년간 변하지 않던 기본 데이터 타입을 밀어붙이고 있음
    Block floating point 위키 문서
  • 기사에서 정작 이 칩이 무엇을 하는지 한 번도 설명하지 않았다는 게 흥미로움
    • 핵심은 여러 개의 128x128 systolic array 구조임
      자세한 내용은 Semianalysis 뉴스레터 참고
    • 이름 그대로 Training용 칩임
    • 결국 벡터 연산을 수행하는 칩임
    • 아마 이 칩의 진짜 임무는 주주를 만족시키는 것이라 개발자에게 설명할 필요가 없다고 생각한 듯함
  • 성능이나 벤치마크에 대한 언급이 전혀 없음
    • “4배 더 많다”고는 하지만, 4배 더 빠르다는 뜻도 아니고, 4배 더 많은 메모리라지만 기준이 없음
  • 진짜 뉴스는 “Nvidia 친화적 로드맵”이라는 부분임
    아마존이 AI에서도 물류처럼 비용 절감을 노리는 듯함
    하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 체면용 전략으로 보임
  • NVLink가 확산되는 게 흥미로움
    Intel도 참여 중이고, 이는 마치 PCI → AGP 전환기 같은 순간임
    AMD는 예전 HyperTransport 시절엔 기회를 잡을 뻔했지만, 지금의 Infinity Fabric은 내부용에 그침
    UALinkCXL도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음
    이상적으로는 칩에 네트워킹 통합이 기본으로 들어가야 함
    예전 Intel Xeon이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼
    • NVLink Fusion은 결국 Nvidia 종속의 덫처럼 보임
      Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임
      AMD라면 SolarFlare NIC를 I/O 다이에 넣는 게 낫다고 생각함
      PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, UEC는 너무 틈새 시장일 수도 있음
  • 아마존 공식 포스트: Trainium 3 UltraServer 소개