14P by xguru 2023-02-22 | favorite | 댓글과 토론
  • 16GB T4 / 24GB RTX3090 같은 제한된 GPU 환경에서 LLM을 운영하는 고성능 생성 엔진
  • 약 100배까지 엄청 빠른 오프로딩으로 175B 모델을 싱글 GPU에서 운영 가능
  • 파라미터와 어텐션 캐쉬를 최대한 압축(정확도 손실이 거의 없는 4비트까지 낮춤)
  • 분산 병렬 런타임으로 GPU 추가시에 쉽게 확장 가능