# MLC-LLM으로 iOS에서 로컬 LLM(Gemma 3) 실행하기

> Clean Markdown view of GeekNews topic #27437. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27437](https://news.hada.io/topic?id=27437)
- GeekNews Markdown: [https://news.hada.io/topic/27437.md](https://news.hada.io/topic/27437.md)
- Type: news
- Author: [caaat](https://news.hada.io/@caaat)
- Published: 2026-03-12T18:17:45+09:00
- Updated: 2026-03-12T18:17:45+09:00
- Original source: [blog.devstory.co.kr](https://blog.devstory.co.kr/post/mlc-llm-ios/)
- Points: 3
- Comments: 8

## Topic Body

**Gemma 3** 모델을 MLC-LLM을 통해 iOS 기기에서 로컬로 구동하는 방법과 실구동 성능 지표를 정리한 포스팅입니다.   
  
##### 요약  
* **MLC-LLM 활용**: Metal API 가속을 통해 모바일 기기에서도 지연 시간(Latency)이 거의 없는 쾌적한 추론 환경 구축  
* **Gemma 3 1B 빌드 과정**: Hugging Face 모델 다운로드부터 **q4f16_1** 양자화, 대화 템플릿(gemma3_instruction) 적용 및 Metal 커널 컴파일까지의 전체 워크플로우 가이드  
* **성능 및 리소스 지표**:  
  - **Gemma 2 2B**: 약 2.4GB VRAM 점유  
  - **Gemma 3 1B**: 약 1.14GB VRAM 점유  
* **실행 팁**: `mlc-package-config.json` 설정을 통해 커스텀 모델을 Xcode 프로젝트에 패키징하는 방법 포함  
  
##### 평가  
- MLC-LLM을 활용하면 고성능 LLM을 iOS 기기에 직접 이식하여 개인 정보 보호와 오프라인 실행이라는 장점을 모두 챙길 수 있음  
- JSON 포맷과 같이 구조화된 응답을 생성하는 것을 다소 어려워하는 모습을 보임  
- 복잡한 시스템 프롬프트가 필요한 기능이나 데이터 추출 업무에 활용하기 위해서는 프롬프트 엔지니어링이나 추가적인 파인튜닝 등의 보완 작업이 필요해 보임  
- 앞으로 모델 전용 파이프라인 연결과 프로젝트 최적화 작업이 병행된다면, 더욱 실용적인 On-Device AI 서비스를 구축할 수 있을 것으로 기대됨

## Comments


### Comment 53221

- Author: wedding
- Created: 2026-03-17T15:01:30+09:00
- Points: 1

저는 갤럭시 폴드 4에서 qwen 3 0.6b q5 돌리고 있는데요. 아직까진 좀 아쉬운 느낌입니다.

### Comment 53289

- Author: dolsangodkimchi
- Created: 2026-03-18T14:50:42+09:00
- Points: 1
- Parent comment: 53221
- Depth: 1

어느 부분에서 아쉬운건지 궁금합니다.  
모델이 너무 작아 llm 성능이 아쉬운 것인지, 아니면 로컬에서 실행시킬 때 실행퍼포먼스가 아쉬운 것인지 궁금합니다.

### Comment 53468

- Author: wedding
- Created: 2026-03-20T23:34:11+09:00
- Points: 1
- Parent comment: 53289
- Depth: 2

퍼포먼스가 아쉽습니다. gpu나 특정 npu 지원이 아직 안되서 느려유..

### Comment 52936

- Author: newbie1004
- Created: 2026-03-13T09:36:55+09:00
- Points: 1

저는 갤럭시 노트 20 울투라 gemma3 1b int4 모델 연구중입니다  
  
구모델에서 돌아가는 수준입니다.

### Comment 52984

- Author: kaboom45
- Created: 2026-03-14T05:13:24+09:00
- Points: 1
- Parent comment: 52936
- Depth: 1

오 혹시 vulkan 가속 되나요?

### Comment 53695

- Author: wedding
- Created: 2026-03-24T10:33:47+09:00
- Points: 1
- Parent comment: 52984
- Depth: 2

된다는디 저는 안됩니다 ㅠ

### Comment 52949

- Author: kji96
- Created: 2026-03-13T11:30:50+09:00
- Points: 1
- Parent comment: 52936
- Depth: 1

갤럭시 노트20에는 좀더 낮은 사양의 CPU에서 잘 동작하는(잘 최적화된) 모델이 나오기 전까지는 원활히 쓰기는 힘들지 않을까요?  
  
위에서 나온 내용을 보면 Mac 전용 Metal 커널용으로 만들었다고 되어 있습니다.  
MLX를 사용하면 일반 GGUF 보다 빠른 로딩과 실행이 가능한 것으로 알고 있습니다.

### Comment 52937

- Author: newbie1004
- Created: 2026-03-13T09:37:20+09:00
- Points: 1
- Parent comment: 52936
- Depth: 1

근데 4b 까지는 애매합니다 ;;