45P by xguru 4일전 | ★ favorite | 댓글 5개
  • 로컬 환경에서 LLM을 완전 오프라인으로 실행하기 위해 설계된 도구로, Ollama보다 142배 작은 4.8MB 단일 바이너리 형태 제공
  • OpenAI API와 100% 호환되어 기존 Python, Node.js, VSCode Copilot, Cursor, Continue.dev 등 개발 도구를 그대로 연결 가능
  • 설치 직후 즉시 작동하는 제로 설정(Zero-Config) 구조
    • Hugging Face, Ollama, 로컬 디렉터리 등에서 자동 모델 탐색
    • 자동 포트 할당LoRA 어댑터 감지 기능 지원
  • MOE(Mixture of Experts) 기반 CPU/GPU 하이브리드 추론 기능으로 70B 이상 대형 모델을 일반 PC에서 실행 가능
    • CPU 오프로딩지능형 레이어 분배로 VRAM 부족 환경에서도 안정적 실행
    • --cpu-moe, --n-cpu-moe 옵션으로 세부 제어 가능
  • GPU 가속을 위한 CUDA, Vulkan, OpenCL, MLX(Apple Silicon) 등 다양한 백엔드 지원
    • 런타임에서 자동 감지하며, GPU 미탑재 시 CPU로 자동 전환
  • Rust + Tokio 기반의 비동기 아키텍처로 높은 성능과 메모리 안정성 확보
    • llama.cpp 백엔드 사용으로 GGUF 모델 호환
    • LRU 캐시, 자동 로드 밸런싱, Prometheus 통합 모니터링 등 포함
  • 보안 및 프라이버시 중심 설계
    • 데이터와 코드가 로컬을 벗어나지 않음
    • API 키, 요금제, 토큰 과금 필요없음
  • MIT 라이선스로 영구 무료 제공됨 : “FREE now, FREE forever”

한국어, 영어, 중국어, 일본어 까지 테스트 해봤는데, 일단 일본어 처리에 문제가 있네요

어차피 백엔드가 llama.cpp 이면 dependency free 라고 부를수 있는건지...

contributor에 claude와 copilot이 같이 올라가있네요.

와우 정말 대박입니다 ㅎㄷㄷㄷ 당장 시도해봐야 겠어요