▲FlexGen - ChatGPT 같은 LLM을 싱글 GPU에서 운영하기 (github.com/FMInference)14P by xguru 2023-02-22 | ★ favorite | 댓글과 토론 16GB T4 / 24GB RTX3090 같은 제한된 GPU 환경에서 LLM을 운영하는 고성능 생성 엔진 약 100배까지 엄청 빠른 오프로딩으로 175B 모델을 싱글 GPU에서 운영 가능 파라미터와 어텐션 캐쉬를 최대한 압축(정확도 손실이 거의 없는 4비트까지 낮춤) 분산 병렬 런타임으로 GPU 추가시에 쉽게 확장 가능 함께 보면 좋은 글 β xturing - 나만의 LLM을 만들고 제어하기 MiniLLM - 개인용 GPU에서 LLM 실행 하기 ChatGPT Pro에서 GPT-5.4 컨텍스트 1M을 제대로 쓰려면 설정이 필요 ChatGPT Images 2.0 공개 Microsoft AutoGen - 차세대 LLM 어플리케이션을 위한 프레임워크 인증 이메일 클릭후 다시 체크박스를 눌러주세요