▲FlexGen - ChatGPT 같은 LLM을 싱글 GPU에서 운영하기 (github.com/FMInference)14P by xguru 2023-02-22 | favorite | 댓글과 토론 16GB T4 / 24GB RTX3090 같은 제한된 GPU 환경에서 LLM을 운영하는 고성능 생성 엔진 약 100배까지 엄청 빠른 오프로딩으로 175B 모델을 싱글 GPU에서 운영 가능 파라미터와 어텐션 캐쉬를 최대한 압축(정확도 손실이 거의 없는 4비트까지 낮춤) 분산 병렬 런타임으로 GPU 추가시에 쉽게 확장 가능 인증 이메일 클릭후 다시 체크박스를 눌러주세요