현재 Expo + React Native로 앱을 개발 중인데, Gemma-4-E2B-it 모델을 핸드폰에 직접 설치해서 온디바이스로 돌리고 싶습니다.

찾아보니 아래와 같은 선택지가 있는 것 같은데, 실제로 어떤 방식을 많이 사용하는지 감이 잘 안 옵니다.

  • llama.rn
  • llama.cpp
  • GGUF
  • LiteRT / AI Edge
  • MLC LLM

제가 하고 싶은 건 아래와 같은데

  • 앱에서 모델 다운로드/설치
  • 로컬 추론 (가능하면 완전 오프라인)
  • Expo/RN 앱 내부에서 사용

현재 가장 많이 사용하는 런타임/라이브러리는 뭔가요?
혹시 구현해보신 분들의 구조나 예시 레포, 경험 공유해주시면 정말 감사하겠습니다.

유사한 PoC를 flutter로 진행했었습니다. 일단 LiteRT-lm으로 작업했었고 https://github.com/google-ai-edge/gallery 이 레포지토리를 많이 참고했었습니다.

아하 그렇군요. 저도 Google Edge Gallery를 설치해서 이것저것 써봤었는데, 참고해보겠습니다 감사합니다!