4P by neo 2달전 | favorite | 댓글 1개
  • Tesla는 HotChips 2024에서 Tesla Transport Protocol over Ethernet (TTPoE)를 오픈 소스로 공개함
  • 테슬라는 Ultra Ethernet Consortium (UEC)에 합류하여 이 프로토콜을 공유하고 AI/ML/데이터센터를 위한 새로운 고속/저지연 패브릭을 표준화하기 위해 노력중
  • TTPoE는 비독점적이고, 저비용이며, 분산 혼잡 제어, 표준 EthernetII 프레임, 비중앙집중식 상호 연결 프로토콜을 지향함
  • TTPoE의 특징
    • TCP와 마찬가지로 패킷 손실과 재전송이 허용되지만, 전체 전송이 보장됨
    • TTPoE의 초기 배포는 Tesla Dojo v1 프로젝트에서 이루어졌음
      • 프로토콜이 전적으로 하드웨어에서 실행되며 수만 개 이상의 동시 엔드포인트가 있는 초대형 멀티 엑사플롭스(fp16) 슈퍼컴퓨터에 배포됨
    • 이 프로토콜은 CPU나 OS의 개입 없이 링크를 설정하고 실행할 수 있음
  • 이 프로토콜은 복잡하거나 똘똘한 것이 아니라 기본 원칙에 기반을 둠
    • 이더넷 전송은 본질적으로 A에서 B로 데이터를 이동시키는 것이며, 물리적 한계에 의해서만 제한되어야 함
    • 매우 큰 규모의 시스템에서 중앙 집중식 혼잡 관리는 어리석은 시도이며, 각 엔드포인트는 탄력적이고 자체 관리되어야 함

GN⁺의 의견

  • TTPoE는 고성능 컴퓨팅 환경에서 기존의 TCP 프로토콜이 가진 한계를 극복하기 위한 흥미로운 시도임
  • 하드웨어 오프로딩과 단순화된 상태 머신을 통해 지연 시간을 최소화하고 처리량을 극대화하는 것이 주요 목표로 보임
  • TTPoE는 AI와 ML 분야에서 데이터 전송 속도와 지연 시간을 개선할 수 있는 잠재력이 있음
  • Tesla가 이 프로토콜을 오픈 소스로 공개한 것은 HPC 분야에서 혁신을 가속화하는 데 도움이 될 것임
  • 다만 TTPoE가 범용 네트워크에서 TCP를 완전히 대체하기는 어려울 것으로 보이며, 고품질의 전용 네트워크에 최적화된 솔루션임. TTPoE가 널리 채택되기 위해서는 표준화와 생태계 구축이 중요할 것임
  • 유사한 기능을 가진 프로토콜로는 RoCE (RDMA over Converged Ethernet)와 NVLink가 있음

TTPoE 에 대해서 좀 더 자세히 설명한 다른 기사가 있네요
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

TTPoE 개요

  • Tesla는 Hot Chips 2023에서 Dojo 슈퍼컴퓨터를 소개했으며, 자율주행 자동차와 같은 자동차 응용 분야에 중점을 둔 기계 학습에 사용함
  • 훈련 데이터는 많은 IO 대역폭을 요구하는 비디오를 다루며, 단일 텐서의 크기는 Tesla의 비전 응용 프로그램의 경우 1.7GB에 달할 수 있음
  • Tesla는 호스트 머신이 데이터를 슈퍼컴퓨터로 푸시하는 속도에 의해 Dojo 슈퍼컴퓨터의 처리량이 제한될 수 있음을 발견함

TTPoE의 필요성

  • Tesla는 더 많은 호스트를 추가하고 이러한 추가 호스트를 슈퍼컴퓨터에 저렴하게 연결하는 방법으로 이 문제를 해결함
  • InfiniBand와 같은 일반적인 슈퍼컴퓨터 네트워킹 솔루션 대신 Tesla는 수정된 전송 계층으로 이더넷을 그들의 요구 사항에 맞게 조정하기로 선택함
  • TCP는 Tesla Transport Protocol over Ethernet(TTPoE)로 대체되며, 마이크로초 단위의 지연 시간을 제공하고 간단한 하드웨어 오프로드를 허용하도록 설계됨

TTPoE의 특징

  • TTPoE는 완전히 하드웨어에서 처리되도록 설계되었으며 표준 TCP 프로토콜보다 더 나은 지연 시간을 제공함
  • TTPoE의 상태 머신은 TCP에 비해 크게 단순화됨
  • TCP의 대기 상태를 제거하여 지연 시간이 감소됨
  • TTP는 TIME_WAIT 상태를 삭제하고 3번의 전송에서 2번의 전송으로 연결 종료 시퀀스를 변경함
  • TCP의 3-way 핸드셰이크를 2-way로 변경하여 연결 설정 지연 시간을 단축함

TTPoE의 혼잡 제어

  • TCP와 마찬가지로 Tesla는 혼잡 제어를 위해 패킷 손실을 사용함
  • Tesla는 저지연 기본 네트워크에서 실행되도록 설계되었기 때문에 문제에 대해 무차별 대입 방식을 사용할 수 있었음
  • 전통적인 TCP 구현은 슬라이딩 혼잡 윈도우를 유지 관리하지만 TTP는 그렇지 않음
  • 하드웨어는 SRAM 버퍼에서 전송된 데이터를 추적하며, 이는 혼잡 윈도우 크기를 정의함
  • 전통적인 TCP 혼잡 제어 알고리즘은 Tesla의 Dojo 슈퍼컴퓨터 응용 프로그램에 효과적이기에는 너무 긴 시간 척도로 작동함

TTPoE 하드웨어 구현

  • Tesla는 칩과 표준 이더넷 하드웨어 사이에 배치된 하드웨어 블록에서 TTP 프로토콜을 처리함
  • 이 MAC 하드웨어 블록은 CPU 설계자가 설계했으며 많은 CPU 설계 기능을 도입함
  • 발표자는 이를 공유 캐시처럼 작동한다고 설명했으며, 중재자는 순서 위험을 고려하여 요청 중에서 선택함
  • 가장 두드러지는 리소스 중 하나는 1MB 전송 SRAM 버퍼로, 위에서 언급한 것처럼 혼잡 윈도우를 정의함

Mojo NIC

  • TPP MAC은 Tesla가 "Dumb-NIC"라고 부르는 것에 구현됨
  • 가능한 한 저렴하고 단순하기 때문에 "dumb"라고 불림
  • Tesla는 Dojo 슈퍼컴퓨터에 데이터를 공급하기 위해 많은 수의 호스트 노드를 배포하려고 하며, 저렴한 네트워크 카드를 사용하면 비용 효율적인 방식으로 이를 달성할 수 있음
  • Mojo라는 이름은 추가 호스트 노드가 성능을 유지하기 위해 Dojo에 더 많은 Mojo를 제공한다는 아이디어에서 유래함
  • Mojo 카드는 원격 호스트 머신에 설치되며, 엔지니어가 Dojo 슈퍼컴퓨터에 데이터를 공급하기 위해 더 많은 대역폭이 필요한 경우 풀에서 원격 호스트 머신을 끌어올 수 있음

요약

  • Mojo와 TTPoE 프로토콜은 잘 알려진 전송 제어 프로토콜(TCP)이 고품질 슈퍼컴퓨터 내부 네트워크에서 사용하기 위해 단순화될 수 있는 방법에 대한 흥미로운 통찰력을 제공함
  • 이 프로토콜은 이론적으로 인터넷에서 실행될 수 있지만 고정 혼잡 윈도우와 같은 단순화는 인터넷 서비스 제공업체 및 그 이상으로 연결되는 품질이 낮은 링크에서는 잘 작동하지 않을 것임
  • InfiniBand와 같은 다른 슈퍼컴퓨팅 네트워크 솔루션과 비교하여 이더넷을 통한 사용자 정의 전송 프로토콜은 Dojo의 요구 사항을 충족하기에 충분한 추가 대역폭을 제공할 수 있음