Google LiteRT-LM - 엣지 디바이스용 고성능 LLM 추론 프레임워크

xguru · 2026-04-22T09:31:02+09:00

구글이 만든 프로덕션 수준의 온디바이스 LLM 추론 엔진으로, Android·iOS·웹·데스크톱·IoT(Raspberry Pi) 등 엣지 환경 전반에서 대규모 언어 모델 실행 가능 최신 Gemma 4 모델 지원도 추가, GPU·NPU 하드웨어 가속을 통해 엣지 디바이스에서도 최적 추론 성능 제공 멀티모달 지원으로 비전(이미지)·오디오 입력 처리 가능하며, CLI에서 --attachment 옵션으로 이미지 첨부 추론도 지원 에이전틱 워크플로우를 위한 Function Calling(Tool Use) 내장 Gemma, Llama, Phi-4, Qwen 등 다양한 LLM 모델 호환, 한 줄 CLI 명령어로 Hugging Face에서 모델 다운로드 후 즉시 추론 가능 uv tool install litert-lm → litert-lm run 으로 바로 시작 Chrome, Chromebook Plus, Pixel Watch 등 Google 제품에 실제 탑재되어 온디바이스 GenAI 구동 중 Google AI Edge Gallery 앱을 통해 모바일에서 모델 즉시 실행 가능 (Google Play·App Store 제공) 언어 API: Kotlin(Android/JVM), Python(프로토타이핑), C++(고성능 네이티브) 안정 지원, Swift(iOS/macOS) 개발 중 릴리스 현황: v0.10.2 최신, v0.10.1에서 Gemma 4·CLI 도입, v0.8.0에서 데스크톱 GPU·멀티모달, v0.7.0에서 NPU 가속 추가 Apache-2.0 라이선스

(github.com/google-ai-edge)

4P by xguru 2시간전 | ★ favorite | 댓글 1개

구글이 만든 프로덕션 수준의 온디바이스 LLM 추론 엔진으로, Android·iOS·웹·데스크톱·IoT(Raspberry Pi) 등 엣지 환경 전반에서 대규모 언어 모델 실행 가능
최신 Gemma 4 모델 지원도 추가, GPU·NPU 하드웨어 가속을 통해 엣지 디바이스에서도 최적 추론 성능 제공
멀티모달 지원으로 비전(이미지)·오디오 입력 처리 가능하며, CLI에서 --attachment 옵션으로 이미지 첨부 추론도 지원
에이전틱 워크플로우를 위한 Function Calling(Tool Use) 내장
Gemma, Llama, Phi-4, Qwen 등 다양한 LLM 모델 호환, 한 줄 CLI 명령어로 Hugging Face에서 모델 다운로드 후 즉시 추론 가능
- uv tool install litert-lm → litert-lm run 으로 바로 시작
Chrome, Chromebook Plus, Pixel Watch 등 Google 제품에 실제 탑재되어 온디바이스 GenAI 구동 중
Google AI Edge Gallery 앱을 통해 모바일에서 모델 즉시 실행 가능 (Google Play·App Store 제공)
언어 API: Kotlin(Android/JVM), Python(프로토타이핑), C++(고성능 네이티브) 안정 지원, Swift(iOS/macOS) 개발 중
릴리스 현황: v0.10.2 최신, v0.10.1에서 Gemma 4·CLI 도입, v0.8.0에서 데스크톱 GPU·멀티모달, v0.7.0에서 NPU 가속 추가
Apache-2.0 라이선스

▲

hmmhmmhm 51분전 [-]

요즘엔 잘 되려나요 이전에 맥쪽에서 성능이 묘하게 안 좋았었는데...

답변달기

Google LiteRT-LM - 엣지 디바이스용 고성능 LLM 추론 프레임워크

함께 보면 좋은 글 β