- 다양한 디바이스(스마트폰, 노트북, TV, 카메라 등)에서 GGUF 모델을 직접 실행할 수 있게 해주는 크로스플랫폼 프레임워크
- Huggingface; Qwen, Gemma, Llama, DeepSeek 등에서 제공되는 아무 GGUF 모델이든 가능
- 앱 내에서 LLM/VLM/TTS 모델을 직접 배포·구동
-
Flutter, React-Native, Kotlin Multiplatform을 지원하며, 텍스트, 비전, 임베딩, TTS 모델 등 다양한 타입의 모델을 온디바이스로 실행 가능
- FP32부터 2비트 양자화 모델까지 지원해 모바일 환경에서 높은 효율성과 저전력 구동가능
- 챗 템플릿(Jinja2), 토큰 스트리밍, 클라우드-로컬 자동 폴백, Speech-To-Text 등 지원
- Cactus 백엔드는 C/C++로 작성되어 있어, 모바일, PC, 임베디드, IoT 등 거의 모든 환경에서 직접 동작
- 최신 스마트폰 기준 Gemma3 1B Q4 는 20~50 토큰/초, Qwen3 4B Q4은 7~18 토큰/초 속도로 동작
-
HuggingFace Cactus-Compute에서 추천 모델 다운로드 가능
활용 포인트 및 장점
- 기존 온디바이스 LLM 프레임워크와 달리 여러 플랫폼을 통합 지원, 로컬-클라우드 하이브리드 아키텍처 구현 용이
-
모바일 기기에서 고성능·저전력으로 최신 LLM/VLM/TTS 활용 가능
- 앱/서비스 내 프라이빗 데이터 처리, 오프라인 AI 활용, 비용 절감 등 다양한 B2C/B2B 시나리오에 적합