16P by xguru 2023-03-13 | favorite | 댓글 1개
  • 맥북에서 LLaMA 모델을 4-bit 양자화하여 실행하는 것을 목표
  • 의존성 없는 순수 C/C++ 구현
  • Arm Neon/Accelerate 프레임워크에 최적화(애플 실리콘)
  • x86용 AVX2 지원
  • 혼합 F16/F32 정밀도
  • 4-bit quntization 지원
  • CPU에서 실행
  • 현재는 맥/리눅스만 지원. 윈도우 지원 예정

7B 모델 돌려봤는데 생각보다 잘 돌아가네요