테슬라의 프로젝트 Dojo 오버뷰
(perspectives.mvdirona.com)AWS VP인 James Hamilton의 글
- Dojo 머신러닝 시스템은 3가지 측면에서 흥미로움
1. 대규모 네트워크
ㅤ→ 각 D1칩이 16,000Gbps(4Tbps 4채널) 네트워킹을 제공하고, 25칩 MCM(Multi-Chip Modules)로 결합되어 36,000Gbps(4x 9Tb) 대역폭 제공
2. 엄청 작은 메모리 대 계산 비율
ㅤ→ 각 D1칩은 354개의 기능 유닛으로, 각 유닛은 1.25메가의 SRAM만 있고 DRAM은 없으므로 D1 칩 하나에는 1기가의 절반도 안되는 메모리만 있음 (442.5Mb)
ㅤ→ 5개 단위 Rack의 끝에 큰 DRAM풀을 배치하고 컴퓨팅 랙 자체에는 DRAM이 없음
ㅤ→ 어떻게 이렇게 적은 메모리로 동작이 가능한지 생각해보면, 광대한 네트워크 대역폭과 다른 일반적인 ML학습 작업보다 훨씬 적게 메모리를 사용하는 비젼 모델을 실행하도록 설계된 시스템 조합일 것
3. 엄청난 전력 밀도
ㅤ→ 각 D1칩은 400W만 소모하며, 이건 이 크기에선 최신 수준의 예상치와 같지만, 이걸 상당히 조밀한 25칩 MCM에 결합해서 15kw(D1의 10kw 및 전압조정기의 5kw)만 소모하도록 했음
ㅤ→ 이러면 꽉 채워진 10랙 Dojo 훈련 시스템이 1.8 메가와트 임
ㅤ→ 규모의 관점에서 보면 중간 규모의 데이터 센터는 30~40메가 와트 범위에서 운영 될 것
- 사소한 부분 이긴 하지만, VRD(Voltage Regulator Down)를 타일에 직접 놓은 것은 비정상적으로 높은 52V전원을 공급하기 위한 좋은 시도인 듯. 15Kw 전력소모를 감안해도, 52V에서도 여전히 288A를 소모
- 354개의 기능유닛이 한개의 645mm^2 D1칩에 결합. 25개의 D1칩이 트레이닝 타일이라고 하는 멀티칩 모듈을 형성하고, 12개의 트레이닝 타일이 랙을 구성하고, 10개의 랙이 Exapod를 채움.
- "상당히 혁신적인 시스템"
같이 읽어 볼 Tesla AI Day 글들
- Tesla AI day 감상 https://news.hada.io/topic?id=4859
- 테슬라 AI 데이 내용 요약.gif https://gall.dcinside.com/mgallery/board/view?id=stockus&no=1799623
- 테슬라 AI Day 한글자막 풀버전 1편 https://www.youtube.com/watch?v=Ah-TMrKSvic