13P by xguru 2023-05-02 | favorite | 댓글 1개
  • 정수형 양자화(integer quantization) 지원: ggml Whisper 모델을 기본 16bit 실수형 가중치를 4,6,8bit 정수형 가중치로 전환 가능
    • 디스크 크기 및 메모리 사용량을 줄여서 일부 아키텍처에서 더 빠르게 실행
    • llama.cpp 프로젝트에 기여된 코드에 의해서 가능해진 것
  • cuBLAS를 이용하여 NVIDIA GPU 지원