로컬에서 LLM 실행하기

(abishekmuthian.com)

27P by GN⁺ 2024-12-30 | ★ favorite | 댓글과 토론

r/LocalLLaMA 서브레딧 및 Ollama 블로그에서 로컬 LLM 실행을 시작하는 데 유용한 정보를 얻을 수 있음

하드웨어 구성

Core i9(32 스레드) CPU, 4090 GPU(16GB VRAM), 96GB RAM을 장착한 Linux 기반 랩톱 사용
VRAM에 맞는 모델은 빠르게 작동하며, 큰 모델은 RAM으로 오프로드되어 속도가 느려질 수 있음
고성능 컴퓨터가 필요하지 않으며, 작은 모델은 오래된 GPU나 CPU에서도 작동 가능

사용 도구

Ollama: Llama.cpp를 실행하기 위한 Python 및 JavaScript 라이브러리를 포함한 미들웨어, Docker에서 사용
Open WebUI: 텍스트 및 이미지 입력을 위한 친숙한 인터페이스 제공
llamafile: 단일 실행 파일로 LLM 실행 가능
AUTOMATIC1111 및 Fooocus: 이미지 생성 도구, 복잡한 워크플로우에는 ComfyUI 사용
Continue: VSCode에서 코드 자동 완성을 지원
Obsidian Smart Connections: Ollama를 사용해 메모를 쿼리하는 기능 제공

모델 선택

Ollama 모델 페이지를 통해 최신 LLM 다운로드
RSS로 모델 업데이트를 추적
CivitAI에서 이미지 생성 모델 다운로드 (주의: 일부 모델은 성인 이미지 생성에 최적화)
주로 사용하는 모델:
- Llama3.2: 일반 쿼리와 Smart Connections에 사용
- Deepseek-coder-v2: VSCode의 코드 완성
- Qwen2.5-coder: 코드 관련 대화
- Stable Diffusion: 이미지 생성

업데이트

WatchTower를 사용해 Docker 컨테이너 업데이트
Open Web UI를 통해 모델 업데이트

파인튜닝 및 양자화

현재 파인튜닝이나 양자화를 진행하지 않음 (CPU 결함 가능성으로 인해 장시간 고온 작업을 피함)

결론

로컬 LLM 실행은 데이터에 대한 완전한 제어와 낮은 응답 지연을 제공
오픈소스 프로젝트 및 무료 모델 덕분에 이러한 작업이 가능
새로운 도구나 모델을 사용할 경우 내용을 업데이트할 예정