현재 Expo + React Native로 앱을 개발 중인데, Gemma-4-E2B-it 모델을 핸드폰에 직접 설치해서 온디바이스로 돌리고 싶습니다.
찾아보니 아래와 같은 선택지가 있는 것 같은데, 실제로 어떤 방식을 많이 사용하는지 감이 잘 안 옵니다.
- llama.rn
- llama.cpp
- GGUF
- LiteRT / AI Edge
- MLC LLM
제가 하고 싶은 건 아래와 같은데
- 앱에서 모델 다운로드/설치
- 로컬 추론 (가능하면 완전 오프라인)
- Expo/RN 앱 내부에서 사용
현재 가장 많이 사용하는 런타임/라이브러리는 뭔가요?
혹시 구현해보신 분들의 구조나 예시 레포, 경험 공유해주시면 정말 감사하겠습니다.