Shimmy - Ollama를 대체 가능한 개인 프라이버시 중심의 경량 OpenAI API 서버

(github.com/Michael-A-Kuykendall)

로컬 환경에서 LLM을 완전 오프라인으로 실행하기 위해 설계된 도구로, Ollama보다 142배 작은 4.8MB 단일 바이너리 형태 제공
OpenAI API와 100% 호환되어 기존 Python, Node.js, VSCode Copilot, Cursor, Continue.dev 등 개발 도구를 그대로 연결 가능
설치 직후 즉시 작동하는 제로 설정(Zero-Config) 구조
- Hugging Face, Ollama, 로컬 디렉터리 등에서 자동 모델 탐색
- 자동 포트 할당 및 LoRA 어댑터 감지 기능 지원
MOE(Mixture of Experts) 기반 CPU/GPU 하이브리드 추론 기능으로 70B 이상 대형 모델을 일반 PC에서 실행 가능
- CPU 오프로딩과 지능형 레이어 분배로 VRAM 부족 환경에서도 안정적 실행
- --cpu-moe, --n-cpu-moe 옵션으로 세부 제어 가능
GPU 가속을 위한 CUDA, Vulkan, OpenCL, MLX(Apple Silicon) 등 다양한 백엔드 지원
- 런타임에서 자동 감지하며, GPU 미탑재 시 CPU로 자동 전환
Rust + Tokio 기반의 비동기 아키텍처로 높은 성능과 메모리 안정성 확보
- llama.cpp 백엔드 사용으로 GGUF 모델 호환
- LRU 캐시, 자동 로드 밸런싱, Prometheus 통합 모니터링 등 포함
보안 및 프라이버시 중심 설계
- 데이터와 코드가 로컬을 벗어나지 않음
- API 키, 요금제, 토큰 과금 필요없음
MIT 라이선스로 영구 무료 제공됨 : “FREE now, FREE forever”