Hacker News 의견
  • 우리 팀은 AWS 담당자에게 Trainium이나 Inferentia 인스턴스에는 관심이 없다고 여러 번 말했음
    표준 라이브러리인 TransformersPyTorch와 안정적으로 호환된다는 확실한 증거가 없기 때문임
    AWS는 잘 작동한다고 주장하지만, 그건 그들만의 특정 AMIneuron SDK에서만 가능한 ‘행복 경로’임
    실제로 우리 의존성을 써서 작업하면 바로 무너짐
    GCP의 TPU도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음
    AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음
    • AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 베타 서비스 투성이임
      안정적인 건 소수고, 나머지는 거친 부분이 많음
    • 구글은 TPU를 생태계에 녹이기 위해 엄청난 노력을 했음
      아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움
    • 스포일러지만, 커스텀 코드를 많이 짜지 않으면 작동하지 않음
  • SageMaker에서 LMI 컨테이너를 직접 빌드하려다 지옥을 경험했음
    vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 60초 타임아웃 때문에 쓸 수 없음
    이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함
  • AWS는 Trainium에 대해 거창한 말을 하지만, 무대에 나와 칭찬하는 고객은 한 명도 없음
    실제로 써본 사람들은 배포와 운영의 고통 때문에 포기했다고 함
    내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음
    그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄
    • Inf1/Inf2 스팟 인스턴스는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함
      Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함
    • Anthropic도 Trainium을 많이 쓴다고 들었음
      아마 AWS의 전폭적인 지원을 받는 듯함
      SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
  • Block floating point (MXFP8/4) 개념이 흥미로움
    AI가 수십 년간 변하지 않던 기본 데이터 타입을 밀어붙이고 있음
    Block floating point 위키 문서
  • 기사에서 정작 이 칩이 무엇을 하는지 한 번도 설명하지 않았다는 게 흥미로움
    • 핵심은 여러 개의 128x128 systolic array 구조임
      자세한 내용은 Semianalysis 뉴스레터 참고
    • 이름 그대로 Training용 칩임
    • 결국 벡터 연산을 수행하는 칩임
    • 아마 이 칩의 진짜 임무는 주주를 만족시키는 것이라 개발자에게 설명할 필요가 없다고 생각한 듯함
  • 성능이나 벤치마크에 대한 언급이 전혀 없음
    • “4배 더 많다”고는 하지만, 4배 더 빠르다는 뜻도 아니고, 4배 더 많은 메모리라지만 기준이 없음
  • 진짜 뉴스는 “Nvidia 친화적 로드맵”이라는 부분임
    아마존이 AI에서도 물류처럼 비용 절감을 노리는 듯함
    하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 체면용 전략으로 보임
  • NVLink가 확산되는 게 흥미로움
    Intel도 참여 중이고, 이는 마치 PCI → AGP 전환기 같은 순간임
    AMD는 예전 HyperTransport 시절엔 기회를 잡을 뻔했지만, 지금의 Infinity Fabric은 내부용에 그침
    UALinkCXL도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음
    이상적으로는 칩에 네트워킹 통합이 기본으로 들어가야 함
    예전 Intel Xeon이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼
    • NVLink Fusion은 결국 Nvidia 종속의 덫처럼 보임
      Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임
      AMD라면 SolarFlare NIC를 I/O 다이에 넣는 게 낫다고 생각함
      PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, UEC는 너무 틈새 시장일 수도 있음
  • 아마존 공식 포스트: Trainium 3 UltraServer 소개