13P by xguru 8시간전 | ★ favorite | 댓글 2개
  • 다양한 디바이스(스마트폰, 노트북, TV, 카메라 등)에서 GGUF 모델을 직접 실행할 수 있게 해주는 크로스플랫폼 프레임워크
    • Huggingface; Qwen, Gemma, Llama, DeepSeek 등에서 제공되는 아무 GGUF 모델이든 가능
    • 앱 내에서 LLM/VLM/TTS 모델을 직접 배포·구동
  • Flutter, React-Native, Kotlin Multiplatform을 지원하며, 텍스트, 비전, 임베딩, TTS 모델 등 다양한 타입의 모델을 온디바이스로 실행 가능
  • FP32부터 2비트 양자화 모델까지 지원해 모바일 환경에서 높은 효율성과 저전력 구동가능
  • 챗 템플릿(Jinja2), 토큰 스트리밍, 클라우드-로컬 자동 폴백, Speech-To-Text 등 지원
  • Cactus 백엔드는 C/C++로 작성되어 있어, 모바일, PC, 임베디드, IoT 등 거의 모든 환경에서 직접 동작
  • 최신 스마트폰 기준 Gemma3 1B Q4 는 20~50 토큰/초, Qwen3 4B Q4은 7~18 토큰/초 속도로 동작
  • HuggingFace Cactus-Compute에서 추천 모델 다운로드 가능

활용 포인트 및 장점

  • 기존 온디바이스 LLM 프레임워크와 달리 여러 플랫폼을 통합 지원, 로컬-클라우드 하이브리드 아키텍처 구현 용이
  • 모바일 기기에서 고성능·저전력으로 최신 LLM/VLM/TTS 활용 가능
  • 앱/서비스 내 프라이빗 데이터 처리, 오프라인 AI 활용, 비용 절감 등 다양한 B2C/B2B 시나리오에 적합

주말에 한번 써보고싶네요