9P by xguru 10달전 | favorite | 댓글 3개
  • 테슬라는 세계 최고의 AI기업중 하나가 되려고 함
  • 물론 아직 최고의 자율주행도 내놓지 못했고, 생성형 AI세계에서도 테슬라는 보이지 않지만..
  • 테슬라는 현재 내부에 4천개의 V100과 1만6천개 A100 규모로 작은 사내 AI 인프라를 가지고 있음
    • Microsoft 나 Meta가 10만개 이상의 GPU를 보유하고 있고, 이 숫자를 두배로 늘려리고 하는 중
  • 테슬라의 취약한 AI 인프라는 부분적으로 사내 D1 훈련 칩의 지연으로 인한 것
  • 하지만 이제 빠르게 변하는 중
  • 테슬라는 1.5년만에 AI 용량을 10배 이상 늘리고 있음
  • 일부는 자체 기능을 위한 것이지만, 일부는 X.AI를 위한 것
  • 테슬라는 2016년부터 자동차용으로, 2018년부터 데이터 센터용으로 자체 AI 칩을 설계해 왔음
  • 지금까지 생산을 하지 못했지만, 2023년 현재 생산을 늘리는 중
  • 이 아키텍처는 테슬라의 독특한 사례에는 적합하지만, LLM에는 유용하지 않음(이미지 네트워크에 집중)

Tesla HW 4.0, 2세대 FSD칩

  • 테슬라 차 내부에서 AI 추론을 하는 칩은 FSD 칩이라고 부름
  • 테슬라는 완전한 자율주행을 위해서는 자동차에 엄청난 성능은 필요하지 않다고 믿기에 차에 탑재된 칩의 성능은 매우 제한적
  • 게다가 테슬라는 대량으로 판매하기 때문에 Waymo/Cruise 보다 훨씬 더 엄격한 비용 제약이 있음
  • Waymo/Cruise는 개발 및 초기 테스트때 10배 이상 가격의 풀사이즈 GPU를 사용했고, 더 빠르고 비싼 SoC를 만들고 있음
  • 2세대 칩들은 2023년 2월부터 판매되는 차량에 적용중
  • 1세대는 삼성의 14nm 프로세스로 3개의 쿼드코어 클러스터로 구성된 12 Arm Cortex-A72(2.2Ghz)
  • 2세대는 5개의 쿼드코어 클러스터로 구성된 20 Arm Cortex-A72
  • 2세대의 가장 중요한 부분은 세개의 NPU 코어
    • 3개의 코어는 각각 32MiB SRAM을 사용하여 모델 가중치와 Activation을 저장
    • 각 사이클마다 256바이트의 액티베이션 데이터와 128 바이트의 가중치 데이터가 SRAM에서 MAC(Multiply Accumulate Unit)으로 읽혀짐
    • MAC 은 그리드로 설계되어, 각 NPU 코어는 96x96 그리드를 가져 총 9216개의 MAC이 있으며, 클록 사이클당 18,432 오퍼레이션 가능
    • 2.2Ghz 에서 실행되는 NPU에 의해 컴퓨트 파워는 121.641 TOPS(trillion operations per second)
  • 2세대 FSD칩은 256GB NVMe 스토리지와 16GB Micron DDR6(14Gbps) 이 224GB/s 전송랸의 128bit 메모리 버스위에 장착
    • 전송량이 1세대에 비해 3.3x 높아짐
  • HW 4.0 에는 2개의 FSD 칩이 들어감
  • HW4 보드의 성능 향상으로 전력 사용량은 증가(HW3의 두배)
  • HW4의 성능 향상에도 불구하고, 테슬라는 HW3 에서 FSD를 지원하고 싶음. 기존 HW3 사용자중 FSD 구매자가 retrofit(개조)할 필요가 없게 하기 위해
  • 인포테인먼트 시스템은 AMD GPU/APU를 이용. FSD칩과 같은 보드에 있음(예전엔 별도의 도터보드에 있었음)
  • HW4 플랫폼은 12개의 카메라를 지원. 1개는 이중화용이고 11개가 실제 사용
    • 예전엔 전면 카메라 허브에 저해상도 1.2메가픽셀 카메라 3개를 사용했는데, 새 플랫폼은 2개의 5메가 픽셀 카메를 사용
  • 테슬라는 현재 LIDAR 및 카메라외의 센서를 사용하지 않음
  • 에전엔 radar를 썼지만 mid세대부터 제거되었음
    • 이를 통해 차량 제조 비용을 크게 줄였으며, 순수 카메라를 이용한 자율주행 차량이 가능하다고 믿고 있으며 최적화중
    • 물론 viable한 radar가 있다면 카메라 시스템과 통합할 것이라고는 얘기한 바 있음
  • HW4 플랫폼에는 Phoenix라는 자체 설게 Radar가 탑재될 예정
    • 피닉스는 Radar 시스템과 카메라 시스템을 결합하여, 더 많은 데이터를 활용해서 더 안전한 차량을 만드는 것이 목표
    • 피닉스 레이더는 76-77Ghz 스펙트럼을 사용
    • 세가지 감지 모드를 지원하는 비 펄스식 차량용 레이더 시스템

Tesla AI 모델의 차별화(Diffrentiation)

  • 테슬라는 자율 로봇&자동차를 움직이기 위한 Foundational AI 모델을 생산하는 것을 목표로 함
  • 둘 다 주변 환경을 인식하고 주변을 탐색해야 하므로 동일한 유형의 AI모델을 둘 다에 적용 가능
  • 이 모델의 추론은 낮은 전력/짧은 대기시간이 필요해서, 하드웨어 제약때문에 테슬라가 오퍼가능한 모델의 최대 크리를 크게 제한함
  • 모든 회사중에서 테슬라는 딥러닝 신경만에 사용가능한 가장 큰 데이터 세트를 보유중
  • 도로위의 각 자동차는 센서와 이미지를 이용하여 데이터를 캡처하며, 도로상 테슬라 전기차의 숫자와 곱하면 엄청 방대한 데이터세트가 만들어짐
  • 테슬라는 이 데이터 수집을 "Fleet Scale Auto Labeling" 이라고 부름
  • 각 테슬라 전기차는 비디오, 내부 IMU(관성 측정 장치) 데이터, GPS, 주행거리 등 밀집 센서 데이터의 45~60초 로그 클립을 가져와 테슬라의 훈련 서버로 보냄
  • 테슬라는 자신이 수집하는 데이터의 극히 일부만을 사용함
    • 테슬라는 추론에 대한 제한때문에 주어진 모델 크기 내에서 가능한 최고 정확도를 달성하기 위해 모델을 과도하게 훈련시키는 것으로 유명

테슬라는 자율주행 소프트웨어를 Beta로 이미 2년 부터 서비스 하고 있습니다. 다음버전 부터는 정식으로 서비스 예정입니다.
최초 버전은 매우 부족했지만 현재 서비스 되는 소프트웨어는 보통 사람들 수준을 넘어 섰다고 말하는 사람들이 점점 늘어나고 있습니다. 현재 테슬라 자율주행 소프트웨어(FSD)는 사람보다 3배 정도 사고율이 낮습니다.

"클록 사이클당 1832 오퍼레이션 가능"에 오타가 있네요. 원문에는 18,432 오퍼레이션으로 나옵니다.

유료 기사라 뒷부분은 안보이는데, 앞부분만으로도 재미나서 한번 옮겨봅니다.