▲LLaMA-CPU - CPU에서 LLaMA를 실행하는 포크 (github.com/markasoftware)4P by xguru 2023-03-09 | ★ favorite | 댓글과 토론 메타의 LLaMA모델을 CPU에서 실행 설정은 거의 비슷 7B 모델로 테스트 했을때, 로딩하기 위해서는 32GiB램에서도 스왑/zram 을 필요로 함 실제로 추론할 때는 약 20GiB 이하의 램만 사용 Ryzen 7900X 에서 7B모델은 초당 몇 개의 단어 추론 가능 함께 보면 좋은 글 β LLaMA: INT8 에디션 llama.cpp - 페이스북의 LLaMA 모델을 순수 C/C++로 추론하기 LLaMa.cpp가 어떻게 가능할까? ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진 Alpaca: GPT-3.5 수준의 강력한 오픈소스 Instruction-Following 모델 인증 이메일 클릭후 다시 체크박스를 눌러주세요