# Shimmy - Ollama를 대체 가능한 개인 프라이버시 중심의 경량 OpenAI API 서버

> Clean Markdown view of GeekNews topic #24006. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24006](https://news.hada.io/topic?id=24006)
- GeekNews Markdown: [https://news.hada.io/topic/24006.md](https://news.hada.io/topic/24006.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-10-30T09:31:02+09:00
- Updated: 2025-10-30T09:31:02+09:00
- Original source: [github.com/Michael-A-Kuykendall](https://github.com/Michael-A-Kuykendall/shimmy)
- Points: 57
- Comments: 5

## Summary

**Shimmy**는 로컬 환경에서 **OpenAI API와 완벽히 호환되는 경량 LLM 서버**를 단일 4.8MB 바이너리로 제공하며, **Ollama보다 142배 작고 완전 오프라인 실행**이 가능합니다. **Zero-Config 구조**로 설치 즉시 작동하고, **MOE 기반 CPU/GPU 하이브리드 추론** 덕분에 일반 PC에서도 70B급 모델을 구동할 수 있습니다. **Rust + Tokio 아키텍처**로 높은 성능과 안정성을 확보했으며, 클라우드 의존 없이 AI 개발 환경을 꾸리고 싶은 개발자라면 한번 살펴볼만 합니다.

## Topic Body

- 로컬 환경에서 **LLM을 완전 오프라인으로 실행**하기 위해 설계된 도구로, **Ollama보다 142배 작은 4.8MB 단일 바이너리** 형태 제공  
- **OpenAI API와 100% 호환**되어 기존 Python, Node.js, VSCode Copilot, Cursor, Continue.dev 등 개발 도구를 그대로 연결 가능  
- 설치 직후 즉시 작동하는 **제로 설정(Zero-Config)** 구조  
  - Hugging Face, Ollama, 로컬 디렉터리 등에서 **자동 모델 탐색**  
  - **자동 포트 할당** 및 **LoRA 어댑터 감지 기능** 지원  
- **MOE(Mixture of Experts)** 기반 CPU/GPU 하이브리드 추론 기능으로 **70B 이상 대형 모델을 일반 PC에서 실행 가능**  
  - **CPU 오프로딩**과 **지능형 레이어 분배**로 VRAM 부족 환경에서도 안정적 실행  
  - `--cpu-moe`, `--n-cpu-moe` 옵션으로 세부 제어 가능  
- GPU 가속을 위한 **CUDA, Vulkan, OpenCL, MLX(Apple Silicon)** 등 다양한 백엔드 지원  
  - 런타임에서 자동 감지하며, GPU 미탑재 시 CPU로 자동 전환  
- **Rust + Tokio** 기반의 비동기 아키텍처로 높은 성능과 메모리 안정성 확보  
  - **llama.cpp 백엔드** 사용으로 **GGUF 모델** 호환  
  - **LRU 캐시**, **자동 로드 밸런싱**, **Prometheus 통합 모니터링** 등 포함  
- **보안 및 프라이버시 중심 설계**  
  - 데이터와 코드가 로컬을 벗어나지 않음  
  - API 키, 요금제, 토큰 과금 필요없음  
- MIT 라이선스로 **영구 무료 제공**됨 : “FREE now, FREE forever”

## Comments



### Comment 45742

- Author: nextstep
- Created: 2025-11-01T13:07:11+09:00
- Points: 1

한국어, 영어, 중국어, 일본어 까지 테스트 해봤는데, 일단 일본어 처리에 문제가 있네요

### Comment 45671

- Author: tsboard
- Created: 2025-10-30T21:18:02+09:00
- Points: 1

와우 정말 대박입니다 ㅎㄷㄷㄷ 당장 시도해봐야 겠어요

### Comment 45637

- Author: kimjoin2
- Created: 2025-10-30T11:19:47+09:00
- Points: 1

wow

### Comment 45740

- Author: woung717
- Created: 2025-11-01T12:02:51+09:00
- Points: 2

어차피 백엔드가 llama.cpp 이면 dependency free 라고 부를수 있는건지...

### Comment 45625

- Author: mssmss
- Created: 2025-10-30T09:45:13+09:00
- Points: 2

contributor에 claude와 copilot이 같이 올라가있네요.
