Cactus - 스마트폰을 위한 Ollama

(github.com/cactus-compute)

다양한 디바이스(스마트폰, 노트북, TV, 카메라 등)에서 GGUF 모델을 직접 실행할 수 있게 해주는 크로스플랫폼 프레임워크
- Huggingface; Qwen, Gemma, Llama, DeepSeek 등에서 제공되는 아무 GGUF 모델이든 가능
- 앱 내에서 LLM/VLM/TTS 모델을 직접 배포·구동
Flutter, React-Native, Kotlin Multiplatform을 지원하며, 텍스트, 비전, 임베딩, TTS 모델 등 다양한 타입의 모델을 온디바이스로 실행 가능
FP32부터 2비트 양자화 모델까지 지원해 모바일 환경에서 높은 효율성과 저전력 구동가능
챗 템플릿(Jinja2), 토큰 스트리밍, 클라우드-로컬 자동 폴백, Speech-To-Text 등 지원
Cactus 백엔드는 C/C++로 작성되어 있어, 모바일, PC, 임베디드, IoT 등 거의 모든 환경에서 직접 동작
최신 스마트폰 기준 Gemma3 1B Q4 는 20~50 토큰/초, Qwen3 4B Q4은 7~18 토큰/초 속도로 동작
HuggingFace Cactus-Compute에서 추천 모델 다운로드 가능

활용 포인트 및 장점

입니다

주말에 한번 써보고싶네요