Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 지원

(gizmoweek.com)

1P by GN⁺ 7시간전 | ★ favorite | 댓글 1개

Google의 오픈소스 모델 Gemma 4가 iPhone에서 인터넷 연결 없이 네이티브로 실행되어 완전한 오프라인 추론을 수행함
Gemma 4의 31B 모델은 Qwen 3.5의 27B 모델과 유사한 성능을 보이며, 파라미터 수는 약 40억 개 더 많음
E2B·E4B 변형은 속도와 발열 제어에 최적화된 모바일용 모델로, Google 앱은 기본적으로 E2B 사용을 권장함
사용자는 Google AI Edge Gallery 앱을 통해 모델을 선택하고 API나 클라우드 없이 기기 내 추론을 실행할 수 있음
이 실행은 온디바이스 AI 전환의 현실화를 보여주며, 엣지 AI 생태계 확장의 중요한 이정표로 평가됨

iPhone에서의 Google Gemma 4 온디바이스 실행

Google의 오픈소스 모델 Gemma 4가 iPhone에서 완전한 오프라인 추론을 지원하며 네이티브로 동작
- 인터넷 연결 없이 로컬 인퍼런스 수행 가능
- 엣지 AI 배포가 미래 과제가 아닌 현재 진행 중인 기술 현실로 전환됨
성능 비교에서는 Gemma 4의 31B 변형이 Qwen 3.5의 27B 모델과 유사한 수준으로 평가됨
- Gemma는 약 40억 개 더 많은 파라미터를 보유
- 두 모델 모두 작업별로 강점이 달라 절대적 우위는 없음
모바일 최적화 모델인 E2B와 E4B 변형이 주목 대상
- 효율성을 중시해 속도·경량성·발열 제어에 유리
- Google의 앱은 기본적으로 E2B 사용을 권장
Google AI Edge Gallery 앱을 App Store에서 다운로드해 바로 실행 가능
- 사용자는 모델 변형을 선택해 기기 내에서 직접 추론 수행
- API 호출이나 클라우드 의존성 없음
해당 앱은 단순 텍스트 인터페이스를 넘어 이미지 인식·음성 상호작용·확장 가능한 Skills 프레임워크를 포함
- 온디바이스 AI 실험 플랫폼으로 설계되어 개발자와 고급 사용자가 활용 가능

기술적 구조와 성능

Gemma 4는 iPhone의 GPU를 통한 추론 경로를 사용
- 응답 지연이 매우 낮아 소비자용 하드웨어에서도 고성능 AI 워크로드를 처리 가능함을 입증
- 로컬 AI 배포의 상용화 가능성을 보여주는 핵심 사례로 평가됨
오프라인 기능은 기업 환경에서의 활용도를 크게 확장
- 현장 업무·의료 환경·데이터 프라이버시가 중요한 영역에서 클라우드 의존 없이 사용 가능

의미와 전망

Gemma 4의 iPhone 실행은 단순한 기술 시연이 아닌 온디바이스 AI 시대의 도래를 상징
- Google이 Gemma를 통해 엣지 AI 생태계 확장을 본격화하고 있음
- “Gemma가 병 속에서 나온 것”이라는 표현처럼, AI의 로컬화 전환이 이미 시작된 상태임

▲

GN⁺ 7시간전 [-]

Hacker News 의견들

기사 문체가 LLM이 쓴 것처럼 느껴졌음
“It’s not mere X — it’s Y” 같은 패턴이 여러 번 반복되어 있음
- “gizmoweek dot com”의 도덕적 기준을 의심하다니 믿기지 않는다는 농담을 던짐
- 글쓴이가 사람이든 LLM이든 상관없음. 문제는 세부 정보의 부재임. 아이폰 모델 벤치마크도 없고, 내용이 거의 비어 있음
- Claude, Grok 등 여러 모델로 돌려봤는데, 출처 부재와 반복적인 문장 등 콘텐츠 팜 특유의 문제를 모두 지적했음. 심지어 저자가 실존 인물인지도 증명 못 함
- “:v” 이모티콘을 보고 오랜만에 밀레니얼 세대를 찾은 듯 반가워함
- AI가 특정 언어 패턴을 피하도록 우리를 훈련시키는 듯한 느낌을 받음. 약한 언어의 인질이 되기 싫다고 표현함
추론이 Apple Neural Engine이 아닌 GPU를 통해 수행되는 것을 발견했음
Google 엔지니어들이 Apple의 독점 텐서 블록용 커스텀 커널 컴파일을 포기한 듯함. Metal은 이식은 쉽지만 배터리 소모가 심함. ANE 백엔드가 다시 작성되기 전까진 단순한 기술 데모 수준임
- ANE가 LLM 실행에 실질적으로 적합하지 않음. LLM 생태계가 CPU/GPU 중심으로 표준화되어 있고, Apple의 MLX조차 ANE 지원이 없음
- 몇 달 뒤 WWDC에서 CoreML을 대체할 Core AI 프레임워크가 발표될 거라는 9to5mac 기사를 언급하며 기대감을 표현함
- ANE는 최소 128 벡터 단위로 묶어야 효율적임. 토큰 생성에는 비효율적이지만, Flash-MoE나 DFlash 같은 최신 기법 덕분에 예전보다 낙관적임
- 전력 소모는 괜찮지만, 24/7 백그라운드 청취 같은 기능은 사생활 통제 문제로 탐탁지 않음
- Android의 AI Edge Gallery 앱도 GPU만 사용함. Apple의 텐서 블록 문제라기보다 Google이 전반적으로 신경을 안 쓴 듯함
Gemma 4로 오프라인 코딩 앱(pucky) 을 만들어 iPhone에서 실행했음
GitHub 링크 참고. 4B 모델도 가능하지만 메모리 제약으로 기본은 2B로 동작함. TypeScript 단일 파일을 생성해 oxc로 컴파일함. App Store 심사를 통과하기 어려워 직접 Xcode로 빌드해야 함
- 이전 HN 스레드를 참고하라며, React Native 대신 Swift로 바꿔볼 수 있다고 제안함
Apple이 App Store에서 로컬 LLM을 제한하는 듯함. 직접 앱을 배포하려다 2.5.2 조항에 막혔다고 함
- Apple이 LLM 관련 규제를 점점 강화할 것이라 예측함. 사용자가 직접 앱을 만들 수 있게 되면 Apple의 비즈니스 모델이 위협받음
- 하지만 규칙이 일관적이지 않음. 본인 폰에는 이미 Google Edge Gallery와 Locally AI가 정상 작동 중임
- App Store 가이드라인 2.5.2 전문을 인용하며, 왜 로컬 LLM이 여기에 걸리는지 의문을 제기함
- 본인 앱은 ANE 최적화 LLM을 탑재해 완전 오프라인으로 동작했고, 심사도 하루 만에 통과했다고 함. Apple이 AI 스팸 앱을 걸러내려는 의도일 수 있다고 분석함. MacRumors 기사도 언급함
- Cactus Compute 관련 앱도 같은 문제를 겪는지 질문함
관련 스레드로 Gemma 4 on iPhone을 공유함
- 22일 전 올라온 iPhone 17 Pro가 400B LLM을 구동한 사례도 함께 언급함
iPhone 16 Plus에서 속도는 매우 빠르지만, 긴 메시지에서는 급격히 느려짐. 열 스로틀링 때문은 아님. 진단 데이터를 보고 싶다고 함
- LLM 추론은 O(tokens²) 복잡도를 가지므로 길이에 따라 느려지는 게 자연스러움
Gemma 4가 탑재된 Edge Gallery iOS 앱을 기대했지만, intents 접근 제한과 웹 검색용 커스텀 플러그인 필요 등으로 불편함. ChatMCP는 API 기반이라 그나마 쓸 만함
iPhone 16 Pro에서 Google AI Edge Gallery를 설치하고 벤치마크를 돌림
GPU 기준으로 Prefill 231t/s, Decode 16t/s, 첫 토큰까지 1.16초, 초기화 20초라는 결과를 공유함
작은 모델을 사용할 때는 주의가 필요함
“개가 아보카도를 먹을 수 있냐”는 질문에 자신 있게 ‘Yes’라고 답함. 모델의 한계를 인식해야 함
- “기술적으로는 먹을 수 있긴 하지…”라며 농담으로 응답함
오프라인이라 해도 Google이 입력 데이터나 기기 정보를 수집할 거라고 의심함
- GitHub 소스를 보면 메시지 내용은 수집하지 않지만, 모델 사용량 통계는 기록함
- Google 내부 교육 자료에서 가상의 ‘gShoe’ 제품을 예로 들어 데이터 수집의 프라이버시 문제를 다룬다는 재미있는 일화를 공유함
- Apple이 Google에 10억 달러를 지불하며 온디바이스 AI 전략을 추진 중이라며, 이번이 그 미리보기일 수 있다고 언급함

답변달기

Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 지원

iPhone에서의 Google Gemma 4 온디바이스 실행

기술적 구조와 성능

의미와 전망

함께 보면 좋은 글 β

Hacker News 의견들