- r/LocalLLaMA 서브레딧 및 Ollama 블로그에서 로컬 LLM 실행을 시작하는 데 유용한 정보를 얻을 수 있음
하드웨어 구성
- Core i9(32 스레드) CPU, 4090 GPU(16GB VRAM), 96GB RAM을 장착한 Linux 기반 랩톱 사용
- VRAM에 맞는 모델은 빠르게 작동하며, 큰 모델은 RAM으로 오프로드되어 속도가 느려질 수 있음
- 고성능 컴퓨터가 필요하지 않으며, 작은 모델은 오래된 GPU나 CPU에서도 작동 가능
사용 도구
-
Ollama: Llama.cpp를 실행하기 위한 Python 및 JavaScript 라이브러리를 포함한 미들웨어, Docker에서 사용
-
Open WebUI: 텍스트 및 이미지 입력을 위한 친숙한 인터페이스 제공
-
llamafile: 단일 실행 파일로 LLM 실행 가능
-
AUTOMATIC1111 및 Fooocus: 이미지 생성 도구, 복잡한 워크플로우에는 ComfyUI 사용
-
Continue: VSCode에서 코드 자동 완성을 지원
-
Obsidian Smart Connections: Ollama를 사용해 메모를 쿼리하는 기능 제공
모델 선택
- Ollama 모델 페이지를 통해 최신 LLM 다운로드
- RSS로 모델 업데이트를 추적
- CivitAI에서 이미지 생성 모델 다운로드 (주의: 일부 모델은 성인 이미지 생성에 최적화)
- 주로 사용하는 모델:
- Llama3.2: 일반 쿼리와 Smart Connections에 사용
- Deepseek-coder-v2: VSCode의 코드 완성
- Qwen2.5-coder: 코드 관련 대화
- Stable Diffusion: 이미지 생성
업데이트
- WatchTower를 사용해 Docker 컨테이너 업데이트
- Open Web UI를 통해 모델 업데이트
파인튜닝 및 양자화
- 현재 파인튜닝이나 양자화를 진행하지 않음 (CPU 결함 가능성으로 인해 장시간 고온 작업을 피함)
결론
- 로컬 LLM 실행은 데이터에 대한 완전한 제어와 낮은 응답 지연을 제공
- 오픈소스 프로젝트 및 무료 모델 덕분에 이러한 작업이 가능
- 새로운 도구나 모델을 사용할 경우 내용을 업데이트할 예정