Llama.cpp 가이드 – 모든 하드웨어에서 LLMs를 처음부터 로컬로 실행하는 방법

(steelph0enix.github.io)

블로그 작성이 증가하는 것은 긍정적이지만, llama.cpp 빌드 방법이 복잡하게 느껴짐
- ccmake . 명령어로 하드웨어에 맞는 파라미터를 설정하고 빌드할 수 있음
오래된 Dell 노트북에서 Llama.cpp 실행 성공 경험 공유
- 최소 사양으로도 작동했으며, 느리지만 정확한 답변을 제공함
- 더 나은 하드웨어에서 더 큰 모델을 실행해보고 싶음
Llama.cpp 설치를 원하지만, UX가 더 나은 kobold.cpp를 설치하게 됨
Windows와 AMD에서 빌드 시도 경험 공유
- Vulkan과 MSYS2가 가장 쉽게 실행됨
Llama.cpp가 지원하는 LLM의 제한 사항에 대한 질문
- 특정 트랜스포머 모델만 지원하는지에 대한 궁금증
Ollama로 전환한 경험 공유
- Ollama의 서버 및 클라이언트 설정이 간단하게 작동함
Ollama가 단순한 llama.cpp 래퍼가 아니라는 점 강조
- Ollama는 모델 인터페이스 및 패키징을 위한 다양한 기능을 제공함
ChatGPT 웹 인터페이스 대신 Llama.cpp를 사용하는 이유에 대한 질문
- 개인 정보 보호가 주요 이유인지에 대한 궁금증
ChatGPT와 Claude를 매일 사용하지만, LLM을 다른 서비스 외에 사용할 이유를 찾지 못함
Ollama와 llama.cpp 직접 실행에 대한 논의
- CUDA 설정이 항상 쉬운 것은 아니며, 로컬 인퍼런스가 더 빠를 수 있음
- PyTorch 실행이 더 쉬우며, AWQ 모델은 간단히 설치 가능함