26P by neo 14일전 | ★ favorite | 댓글과 토론
  • r/LocalLLaMA 서브레딧 및 Ollama 블로그에서 로컬 LLM 실행을 시작하는 데 유용한 정보를 얻을 수 있음

하드웨어 구성

  • Core i9(32 스레드) CPU, 4090 GPU(16GB VRAM), 96GB RAM을 장착한 Linux 기반 랩톱 사용
  • VRAM에 맞는 모델은 빠르게 작동하며, 큰 모델은 RAM으로 오프로드되어 속도가 느려질 수 있음
  • 고성능 컴퓨터가 필요하지 않으며, 작은 모델은 오래된 GPU나 CPU에서도 작동 가능

사용 도구

  • Ollama: Llama.cpp를 실행하기 위한 Python 및 JavaScript 라이브러리를 포함한 미들웨어, Docker에서 사용
  • Open WebUI: 텍스트 및 이미지 입력을 위한 친숙한 인터페이스 제공
  • llamafile: 단일 실행 파일로 LLM 실행 가능
  • AUTOMATIC1111Fooocus: 이미지 생성 도구, 복잡한 워크플로우에는 ComfyUI 사용
  • Continue: VSCode에서 코드 자동 완성을 지원
  • Obsidian Smart Connections: Ollama를 사용해 메모를 쿼리하는 기능 제공

모델 선택

  • Ollama 모델 페이지를 통해 최신 LLM 다운로드
  • RSS로 모델 업데이트를 추적
  • CivitAI에서 이미지 생성 모델 다운로드 (주의: 일부 모델은 성인 이미지 생성에 최적화)
  • 주로 사용하는 모델:
    • Llama3.2: 일반 쿼리와 Smart Connections에 사용
    • Deepseek-coder-v2: VSCode의 코드 완성
    • Qwen2.5-coder: 코드 관련 대화
    • Stable Diffusion: 이미지 생성

업데이트

  • WatchTower를 사용해 Docker 컨테이너 업데이트
  • Open Web UI를 통해 모델 업데이트

파인튜닝 및 양자화

  • 현재 파인튜닝이나 양자화를 진행하지 않음 (CPU 결함 가능성으로 인해 장시간 고온 작업을 피함)

결론

  • 로컬 LLM 실행은 데이터에 대한 완전한 제어와 낮은 응답 지연을 제공
  • 오픈소스 프로젝트 및 무료 모델 덕분에 이러한 작업이 가능
  • 새로운 도구나 모델을 사용할 경우 내용을 업데이트할 예정