22P by xguru 2023-03-30 | favorite | 댓글과 토론
  • 최신 LLM을 소비자용 Nvidia GPU에서 실행하기 위한 미니멀 시스템
  • 여러개의 LLM(LLAMA, BLOOM, OPT)을 최대 170B 규모까지 지원
  • 다양한 종류의 Nvidia GPU 지원
  • Python으로 된 작고 사용하기 쉬운 코드
  • 내부적으로 3-bit 압축을 위해 GPTQ 알고리듬을 사용해서 GPU 메모리 사용량을 최소화