9P by xguru 8달전 | favorite | 댓글과 토론
  • TensorRT 딥러닝 컴파일러와 최적화된 커널, 전처리/후처리 단계, 멀티GPU/멀티노드 통신 기본요소 등을 포함
  • C++ 이나 CUDA에 대한 깊은 지식 없이도 LLM에 최고 성능과 사용자 정의 기능을 빠르게 제공 가능
  • 오픈소스 모듈식 Python API를 제공하여 사용 편의성과 확장성 제공
  • Ampere, Lovelace, Hopper GPU 지원
  • H100 기반으로 TensorRT-LLM을 적용하여 테스트 했을 때
    • GTP-J-6B 는 추론 성능 8배 향상, TCO 5.3배 감소, 에너지 소비량 5.6배 감소
    • Llama2 70B 는 추론 성능 4.6배 향상, TCO 3배 감소, 에너지 소비량 3.2배 감소
  • In-flight Batching 이라 불리는 최적화된 스케줄링 기술 포함
  • TensorRT-LLM이 탑재된 NVIDIA H100 GPU는 사용자에게 모델 가중치를 새로운 FP8 형식으로 쉽게 변환하고 모델을 컴파일하여 최적화된 FP8 커널을 자동으로 활용할 수 있는 기능을 제공
    • Hopper Transformer 엔진 기술을 통해 가능하며, 모델 코드를 변경할 필요 없음
  • 현재 얼리억세스 가능하며, 몇주내로 출시할 예정