현재 Expo + React Native로 앱을 개발 중인데, Gemma-4-E2B-it 모델을 핸드폰에 직접 설치해서 온디바이스로 돌리고 싶습니다.

찾아보니 아래와 같은 선택지가 있는 것 같은데, 실제로 어떤 방식을 많이 사용하는지 감이 잘 안 옵니다.

  • llama.rn
  • llama.cpp
  • GGUF
  • LiteRT / AI Edge
  • MLC LLM

제가 하고 싶은 건 아래와 같은데

  • 앱에서 모델 다운로드/설치
  • 로컬 추론 (가능하면 완전 오프라인)
  • Expo/RN 앱 내부에서 사용

현재 가장 많이 사용하는 런타임/라이브러리는 뭔가요?
혹시 구현해보신 분들의 구조나 예시 레포, 경험 공유해주시면 정말 감사하겠습니다.