- r/LocalLLaMA 서브레딧 및 Ollama 블로그에서 로컬 LLM 실행을 시작하는 데 유용한 정보를 얻을 수 있음
 
하드웨어 구성
- Core i9(32 스레드) CPU, 4090 GPU(16GB VRAM), 96GB RAM을 장착한 Linux 기반 랩톱 사용
 
- VRAM에 맞는 모델은 빠르게 작동하며, 큰 모델은 RAM으로 오프로드되어 속도가 느려질 수 있음
 
- 고성능 컴퓨터가 필요하지 않으며, 작은 모델은 오래된 GPU나 CPU에서도 작동 가능
 
사용 도구
- 
Ollama: Llama.cpp를 실행하기 위한 Python 및 JavaScript 라이브러리를 포함한 미들웨어, Docker에서 사용
 
- 
Open WebUI: 텍스트 및 이미지 입력을 위한 친숙한 인터페이스 제공
 
- 
llamafile: 단일 실행 파일로 LLM 실행 가능
 
- 
AUTOMATIC1111 및 Fooocus: 이미지 생성 도구, 복잡한 워크플로우에는 ComfyUI 사용
 
- 
Continue: VSCode에서 코드 자동 완성을 지원
 
- 
Obsidian Smart Connections: Ollama를 사용해 메모를 쿼리하는 기능 제공
 
모델 선택
- Ollama 모델 페이지를 통해 최신 LLM 다운로드
 
- RSS로 모델 업데이트를 추적
 
- CivitAI에서 이미지 생성 모델 다운로드 (주의: 일부 모델은 성인 이미지 생성에 최적화)
 
- 주로 사용하는 모델:
- Llama3.2: 일반 쿼리와 Smart Connections에 사용
 
- Deepseek-coder-v2: VSCode의 코드 완성
 
- Qwen2.5-coder: 코드 관련 대화
 
- Stable Diffusion: 이미지 생성
 
 
업데이트
- WatchTower를 사용해 Docker 컨테이너 업데이트
 
- Open Web UI를 통해 모델 업데이트
 
파인튜닝 및 양자화
- 현재 파인튜닝이나 양자화를 진행하지 않음 (CPU 결함 가능성으로 인해 장시간 고온 작업을 피함)
 
결론
- 로컬 LLM 실행은 데이터에 대한 완전한 제어와 낮은 응답 지연을 제공
 
- 오픈소스 프로젝트 및 무료 모델 덕분에 이러한 작업이 가능
 
- 새로운 도구나 모델을 사용할 경우 내용을 업데이트할 예정