우리 팀은 AWS 담당자에게 Trainium이나 Inferentia 인스턴스에는 관심이 없다고 여러 번 말했음
표준 라이브러리인 Transformers나 PyTorch와 안정적으로 호환된다는 확실한 증거가 없기 때문임
AWS는 잘 작동한다고 주장하지만, 그건 그들만의 특정 AMI와 neuron SDK에서만 가능한 ‘행복 경로’임
실제로 우리 의존성을 써서 작업하면 바로 무너짐
GCP의 TPU도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음
AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음
AWS는 핵심 서비스(S3, Dynamo, Lambda, ECS 등)를 벗어나면 베타 서비스 투성이임
안정적인 건 소수고, 나머지는 거친 부분이 많음
구글은 TPU를 생태계에 녹이기 위해 엄청난 노력을 했음
아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움
스포일러지만, 커스텀 코드를 많이 짜지 않으면 작동하지 않음
SageMaker에서 LMI 컨테이너를 직접 빌드하려다 지옥을 경험했음
vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 60초 타임아웃 때문에 쓸 수 없음
이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함
AWS는 Trainium에 대해 거창한 말을 하지만, 무대에 나와 칭찬하는 고객은 한 명도 없음
실제로 써본 사람들은 배포와 운영의 고통 때문에 포기했다고 함
내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음
그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄
Inf1/Inf2 스팟 인스턴스는 너무 인기가 없어서 CPU 인스턴스보다 10~20% 저렴함
Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함
Anthropic도 Trainium을 많이 쓴다고 들었음
아마 AWS의 전폭적인 지원을 받는 듯함
SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
아마 이 칩의 진짜 임무는 주주를 만족시키는 것이라 개발자에게 설명할 필요가 없다고 생각한 듯함
성능이나 벤치마크에 대한 언급이 전혀 없음
“4배 더 많다”고는 하지만, 4배 더 빠르다는 뜻도 아니고, 4배 더 많은 메모리라지만 기준이 없음
진짜 뉴스는 “Nvidia 친화적 로드맵”이라는 부분임
아마존이 AI에서도 물류처럼 비용 절감을 노리는 듯함
하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 체면용 전략으로 보임
NVLink가 확산되는 게 흥미로움
Intel도 참여 중이고, 이는 마치 PCI → AGP 전환기 같은 순간임
AMD는 예전 HyperTransport 시절엔 기회를 잡을 뻔했지만, 지금의 Infinity Fabric은 내부용에 그침 UALink나 CXL도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음
이상적으로는 칩에 네트워킹 통합이 기본으로 들어가야 함
예전 Intel Xeon이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼
NVLink Fusion은 결국 Nvidia 종속의 덫처럼 보임
Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임
AMD라면 SolarFlare NIC를 I/O 다이에 넣는 게 낫다고 생각함
PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, UEC는 너무 틈새 시장일 수도 있음
Hacker News 의견
표준 라이브러리인 Transformers나 PyTorch와 안정적으로 호환된다는 확실한 증거가 없기 때문임
AWS는 잘 작동한다고 주장하지만, 그건 그들만의 특정 AMI와 neuron SDK에서만 가능한 ‘행복 경로’임
실제로 우리 의존성을 써서 작업하면 바로 무너짐
GCP의 TPU도 구글이 소프트웨어 지원에 막대한 투자를 한 후에야 쓸 만해졌음
AWS 칩을 쓰기 위해 내가 베타 테스터가 될 시간은 없음
안정적인 건 소수고, 나머지는 거친 부분이 많음
아마존이 그런 수준의 투자를 할 거라고는 상상하기 어려움
vLLM 버전이 6개월째 업데이트되지 않았고, 일반 엔드포인트는 8년 전 결정된 60초 타임아웃 때문에 쓸 수 없음
이런 상황에서 커스텀 실리콘을 쓰겠다는 개발자는 어떤 고통을 겪을지 상상만 해도 끔찍함
실제로 써본 사람들은 배포와 운영의 고통 때문에 포기했다고 함
내부적으로는 많이 쓰는 듯하지만 외부 채택은 거의 없음
그래도 아마존이 자체 칩에 투자하는 건 긍정적으로 봄
Trn1은 아직 그 정도는 아니라 누군가는 쓰고 있는 듯함
아마 AWS의 전폭적인 지원을 받는 듯함
SDK와 툴링에 더 투자하지 않으면 아무도 이런 클라우드를 쓰지 않을 것임
AI가 수십 년간 변하지 않던 기본 데이터 타입을 밀어붙이고 있음
Block floating point 위키 문서
자세한 내용은 Semianalysis 뉴스레터 참고
아마존이 AI에서도 물류처럼 비용 절감을 노리는 듯함
하지만 자신감은 낮고, Nvidia와의 관계를 유지하려는 체면용 전략으로 보임
Intel도 참여 중이고, 이는 마치 PCI → AGP 전환기 같은 순간임
AMD는 예전 HyperTransport 시절엔 기회를 잡을 뻔했지만, 지금의 Infinity Fabric은 내부용에 그침
UALink나 CXL도 주목받고 있지만, 여전히 PCIe 속도 한계가 있음
이상적으로는 칩에 네트워킹 통합이 기본으로 들어가야 함
예전 Intel Xeon이 100Gb Omni-Path를 거의 무료로 제공했을 때처럼
Intel은 절박하니 이해되지만, AWS가 같은 길을 가는 건 좋지 않아 보임
AMD라면 SolarFlare NIC를 I/O 다이에 넣는 게 낫다고 생각함
PCIe/SATA 전환이 가능하듯 PCIe/Ethernet 전환도 가능할 텐데, UEC는 너무 틈새 시장일 수도 있음