# Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 지원

> Clean Markdown view of GeekNews topic #28610. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28610](https://news.hada.io/topic?id=28610)
- GeekNews Markdown: [https://news.hada.io/topic/28610.md](https://news.hada.io/topic/28610.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-17T08:32:30+09:00
- Updated: 2026-04-17T08:32:30+09:00
- Original source: [gizmoweek.com](https://www.gizmoweek.com/gemma-4-runs-iphone/)
- Points: 1
- Comments: 1

## Topic Body

- Google의 **오픈소스 모델 Gemma 4**가 iPhone에서 **인터넷 연결 없이 네이티브로 실행**되어 완전한 오프라인 추론을 수행함
- Gemma 4의 **31B 모델**은 Qwen 3.5의 27B 모델과 유사한 성능을 보이며, 파라미터 수는 약 **40억 개 더 많음**
- **E2B·E4B 변형**은 속도와 발열 제어에 최적화된 모바일용 모델로, Google 앱은 기본적으로 E2B 사용을 권장함
- 사용자는 **Google AI Edge Gallery 앱**을 통해 모델을 선택하고 **API나 클라우드 없이 기기 내 추론**을 실행할 수 있음
- 이 실행은 **온디바이스 AI 전환의 현실화**를 보여주며, 엣지 AI 생태계 확장의 중요한 이정표로 평가됨

---

### iPhone에서의 Google Gemma 4 온디바이스 실행
- **Google의 오픈소스 모델 Gemma 4**가 iPhone에서 **완전한 오프라인 추론**을 지원하며 네이티브로 동작
  - 인터넷 연결 없이 **로컬 인퍼런스** 수행 가능
  - 엣지 AI 배포가 미래 과제가 아닌 **현재 진행 중인 기술 현실**로 전환됨
- **성능 비교**에서는 Gemma 4의 31B 변형이 **Qwen 3.5의 27B 모델**과 유사한 수준으로 평가됨
  - Gemma는 약 **40억 개 더 많은 파라미터**를 보유
  - 두 모델 모두 작업별로 강점이 달라 절대적 우위는 없음
- **모바일 최적화 모델**인 E2B와 E4B 변형이 주목 대상
  - 효율성을 중시해 **속도·경량성·발열 제어**에 유리
  - Google의 앱은 기본적으로 E2B 사용을 권장
- **Google AI Edge Gallery** 앱을 App Store에서 다운로드해 바로 실행 가능
  - 사용자는 모델 변형을 선택해 **기기 내에서 직접 추론 수행**
  - **API 호출이나 클라우드 의존성 없음**
- 해당 앱은 단순 텍스트 인터페이스를 넘어 **이미지 인식·음성 상호작용·확장 가능한 Skills 프레임워크**를 포함
  - **온디바이스 AI 실험 플랫폼**으로 설계되어 개발자와 고급 사용자가 활용 가능

### 기술적 구조와 성능
- Gemma 4는 **iPhone의 GPU를 통한 추론 경로**를 사용
  - 응답 지연이 매우 낮아 **소비자용 하드웨어에서도 고성능 AI 워크로드**를 처리 가능함을 입증
  - **로컬 AI 배포의 상용화 가능성**을 보여주는 핵심 사례로 평가됨
- **오프라인 기능**은 기업 환경에서의 활용도를 크게 확장
  - **현장 업무·의료 환경·데이터 프라이버시가 중요한 영역**에서 클라우드 의존 없이 사용 가능

### 의미와 전망
- Gemma 4의 iPhone 실행은 단순한 기술 시연이 아닌 **온디바이스 AI 시대의 도래를 상징**
  - Google이 Gemma를 통해 **엣지 AI 생태계 확장**을 본격화하고 있음
  - “Gemma가 병 속에서 나온 것”이라는 표현처럼, **AI의 로컬화 전환이 이미 시작된 상태**임

## Comments


### Comment 55641

- Author: neo
- Created: 2026-04-17T08:32:31+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47774971) 
- 기사 문체가 **LLM이 쓴 것처럼** 느껴졌음  
  “It’s not mere X — it’s Y” 같은 패턴이 여러 번 반복되어 있음  
  - “gizmoweek dot com”의 **도덕적 기준**을 의심하다니 믿기지 않는다는 농담을 던짐  
  - 글쓴이가 사람이든 LLM이든 상관없음. 문제는 **세부 정보의 부재**임. 아이폰 모델 벤치마크도 없고, 내용이 거의 비어 있음  
  - Claude, Grok 등 여러 모델로 돌려봤는데, 출처 부재와 반복적인 문장 등 **콘텐츠 팜 특유의 문제**를 모두 지적했음. 심지어 저자가 실존 인물인지도 증명 못 함  
  - “:v” 이모티콘을 보고 오랜만에 **밀레니얼 세대**를 찾은 듯 반가워함  
  - AI가 특정 언어 패턴을 피하도록 **우리를 훈련시키는 듯한 느낌**을 받음. 약한 언어의 인질이 되기 싫다고 표현함  

- 추론이 Apple Neural Engine이 아닌 **GPU를 통해 수행**되는 것을 발견했음  
  Google 엔지니어들이 Apple의 독점 텐서 블록용 커스텀 커널 컴파일을 포기한 듯함. Metal은 이식은 쉽지만 **배터리 소모가 심함**. ANE 백엔드가 다시 작성되기 전까진 단순한 기술 데모 수준임  
  - ANE가 LLM 실행에 **실질적으로 적합하지 않음**. LLM 생태계가 CPU/GPU 중심으로 표준화되어 있고, Apple의 MLX조차 ANE 지원이 없음  
  - 몇 달 뒤 **WWDC에서 CoreML을 대체할 Core AI 프레임워크**가 발표될 거라는 [9to5mac 기사](https://9to5mac.com/2026/03/01/apple-replacing-core-ml-with-...)를 언급하며 기대감을 표현함  
  - ANE는 최소 128 벡터 단위로 묶어야 효율적임. 토큰 생성에는 비효율적이지만, **Flash-MoE나 DFlash 같은 최신 기법** 덕분에 예전보다 낙관적임  
  - 전력 소모는 괜찮지만, 24/7 **백그라운드 청취** 같은 기능은 사생활 통제 문제로 탐탁지 않음  
  - Android의 **AI Edge Gallery 앱**도 GPU만 사용함. Apple의 텐서 블록 문제라기보다 Google이 전반적으로 신경을 안 쓴 듯함  

- Gemma 4로 **오프라인 코딩 앱(pucky)** 을 만들어 iPhone에서 실행했음  
  [GitHub 링크](https://github.com/blixt/pucky) 참고. 4B 모델도 가능하지만 메모리 제약으로 기본은 2B로 동작함. TypeScript 단일 파일을 생성해 oxc로 컴파일함. App Store 심사를 통과하기 어려워 **직접 Xcode로 빌드**해야 함  
  - [이전 HN 스레드](https://news.ycombinator.com/item?id=45129160)를 참고하라며, React Native 대신 Swift로 바꿔볼 수 있다고 제안함  

- Apple이 **App Store에서 로컬 LLM을 제한**하는 듯함. 직접 앱을 배포하려다 2.5.2 조항에 막혔다고 함  
  - Apple이 LLM 관련 규제를 점점 **강화할 것**이라 예측함. 사용자가 직접 앱을 만들 수 있게 되면 Apple의 비즈니스 모델이 위협받음  
  - 하지만 규칙이 일관적이지 않음. 본인 폰에는 이미 **Google Edge Gallery와 Locally AI**가 정상 작동 중임  
  - [App Store 가이드라인 2.5.2 전문](https://developer.apple.com/app-store/review/guidelines/)을 인용하며, 왜 로컬 LLM이 여기에 걸리는지 의문을 제기함  
  - 본인 앱은 **ANE 최적화 LLM**을 탑재해 완전 오프라인으로 동작했고, 심사도 하루 만에 통과했다고 함. Apple이 **AI 스팸 앱을 걸러내려는 의도**일 수 있다고 분석함. [MacRumors 기사](https://www.macrumors.com/2026/03/30/apple-pulls-vibe-coding...)도 언급함  
  - Cactus Compute 관련 앱도 같은 문제를 겪는지 질문함  

- 관련 스레드로 [Gemma 4 on iPhone](https://news.ycombinator.com/item?id=47652561)을 공유함  
  - 22일 전 올라온 [iPhone 17 Pro가 400B LLM을 구동한 사례](https://news.ycombinator.com/item?id=47490070)도 함께 언급함  

- iPhone 16 Plus에서 **속도는 매우 빠르지만**, 긴 메시지에서는 급격히 느려짐. **열 스로틀링 때문은 아님**. 진단 데이터를 보고 싶다고 함  
  - LLM 추론은 **O(tokens²)** 복잡도를 가지므로 길이에 따라 느려지는 게 자연스러움  

- Gemma 4가 탑재된 **Edge Gallery iOS 앱**을 기대했지만, **intents 접근 제한**과 웹 검색용 **커스텀 플러그인 필요** 등으로 불편함. ChatMCP는 API 기반이라 그나마 쓸 만함  

- iPhone 16 Pro에서 **Google AI Edge Gallery**를 설치하고 벤치마크를 돌림  
  GPU 기준으로 Prefill 231t/s, Decode 16t/s, 첫 토큰까지 1.16초, 초기화 20초라는 결과를 공유함  

- 작은 모델을 사용할 때는 주의가 필요함  
  “개가 아보카도를 먹을 수 있냐”는 질문에 **자신 있게 ‘Yes’라고 답함**. 모델의 한계를 인식해야 함  
  - “기술적으로는 먹을 수 있긴 하지…”라며 농담으로 응답함  

- 오프라인이라 해도 Google이 **입력 데이터나 기기 정보**를 수집할 거라고 의심함  
  - [GitHub 소스](https://github.com/google-ai-edge/gallery)를 보면 메시지 내용은 수집하지 않지만, **모델 사용량 통계**는 기록함  
  - Google 내부 교육 자료에서 **가상의 ‘gShoe’ 제품**을 예로 들어 데이터 수집의 프라이버시 문제를 다룬다는 재미있는 일화를 공유함  
  - Apple이 Google에 **10억 달러를 지불**하며 온디바이스 AI 전략을 추진 중이라며, 이번이 그 **미리보기**일 수 있다고 언급함