- Nvidia의 차세대 AI 칩인 Blackwell 시리즈가 설계 결함으로 인해 3개월 이상 지연될 것임
- 이는 Meta, Google, Microsoft 등 수십억 달러 규모의 칩을 주문한 고객사에 영향을 줄 수 있음
- Nvidia는 올해 말 대량의 Blackwell 칩을 출하할 계획이었으나, 생산 과정 후반에 예상치 못한 설계 문제가 발생함
- 이로 인해 대규모 출하는 1분기까지 이루어지지 않을 것으로 예상됨
Nvidia의 주요 고객사들의 계획에 차질 예상
- Blackwell 칩의 지연으로 인해 Microsoft, OpenAI, Meta 등 주요 고객사들의 차세대 대규모 언어 모델 개발 계획에 차질이 생길 것으로 보임
- 이들 기업은 Nvidia의 다음 세대 AI 칩을 통해 소프트웨어 성능의 큰 도약을 이루고자 함
- 특히 Microsoft는 OpenAI가 2025년 1분기까지 사용할 수 있도록 5만 5천에서 6만 5천 개의 GB200 칩을 준비할 계획이었음
고객사들의 대규모 주문 현황
- Google은 40만 개 이상의 GB200 칩을 주문했으며, 서버 하드웨어를 포함하면 주문 규모가 100억 달러를 훨씬 넘을 것으로 추정됨
- Meta 또한 최소 100억 달러 규모의 주문을 했으며, Microsoft는 최근 주문 규모를 20% 증가시킴
설계 결함의 발견과 생산 지연
- 최근 TSMC 엔지니어들이 대량 생산을 준비하는 과정에서 결함을 발견함
- GB200 칩은 두 개의 연결된 Blackwell GPU와 Grace CPU로 구성되는데, 문제는 두 Blackwell GPU를 연결하는 프로세서 다이에서 발생함
- 이로 인해 TSMC가 Nvidia를 위해 생산할 수 있는 칩의 수율이 감소함
- Nvidia는 설계를 조정하고 TSMC에서 새로운 생산 테스트를 진행해야 함
출시 일정 조정
- TSMC는 당초 3분기에 Blackwell 칩의 대량 생산을 시작하고 4분기부터 Nvidia 고객사에 대량 출하할 예정이었음
- 그러나 현재는 4분기에 대량 생산에 들어가고, 추가 문제가 발생하지 않는다면 이후 분기에 서버가 대량 출하될 것으로 예상됨
이례적인 설계 결함과 생산 지연
- 대량 생산 직전에 중대한 설계 결함이 발견되는 것은 매우 이례적임
- 칩 설계자들은 일반적으로 TSMC와 같은 칩 제조사와 협력하여 여러 차례 생산 테스트 및 시뮬레이션을 진행함
- TSMC가 GB200과 같은 주요 제품의 생산 라인을 중단하고 다시 설계 단계로 돌아가는 것도 매우 드문 일임