# llama.cpp - 페이스북의 LLaMA 모델을 순수 C/C++로 추론하기

> Clean Markdown view of GeekNews topic #8682. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8682](https://news.hada.io/topic?id=8682)
- GeekNews Markdown: [https://news.hada.io/topic/8682.md](https://news.hada.io/topic/8682.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-03-13T11:26:01+09:00
- Updated: 2023-03-13T11:26:01+09:00
- Original source: [github.com/ggerganov](https://github.com/ggerganov/llama.cpp)
- Points: 16
- Comments: 1

## Topic Body

- 맥북에서 LLaMA 모델을 4-bit 양자화하여 실행하는 것을 목표   
- 의존성 없는 순수 C/C++ 구현   
- Arm Neon/Accelerate 프레임워크에 최적화(애플 실리콘)  
- x86용 AVX2 지원  
- 혼합 F16/F32 정밀도   
- 4-bit quntization 지원   
- CPU에서 실행   
- 현재는 맥/리눅스만 지원. 윈도우 지원 예정

## Comments



### Comment 15173

- Author: laeyoung
- Created: 2023-03-14T01:13:48+09:00
- Points: 1

7B 모델 돌려봤는데 생각보다 잘 돌아가네요
