# 구글 Gemma 3n 공개 - 새로운 온디바이스 멀티모달 AI의 등장

> Clean Markdown view of GeekNews topic #21682. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21682](https://news.hada.io/topic?id=21682)
- GeekNews Markdown: [https://news.hada.io/topic/21682.md](https://news.hada.io/topic/21682.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-06-27T15:37:44+09:00
- Updated: 2025-06-27T15:37:44+09:00
- Original source: [developers.googleblog.com](https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/)
- Points: 1
- Comments: 1

## Topic Body

- **Gemma 3n**은 모바일·엣지 환경을 위한 최신 온디바이스 멀티모달 AI 모델로, 이미지·오디오·비디오·텍스트를 모두 처리할 수 있음  
- **효율성 중심 구조와 혁신적 아키텍처(Matformer, Per-Layer Embeddings, MobileNet-V5 등)** 로, 기존 클라우드 대형 모델 수준의 성능을 2\~3GB 메모리에서 구현  
- **E2B/E4B 두 가지 모델 크기 제공** 및 Mix-n-Match 방식으로 하드웨어에 맞춘 세밀한 커스텀 사이즈 지원  
- **음성 인식·번역, 실시간 비전 분석, 140개 언어 다국어 처리** 등 다양한 온디바이스 AI 활용 사례에 즉시 적용 가능  
- **Hugging Face, Ollama, llama.cpp 등 주요 AI 오픈소스 생태계와 광범위하게 연동**되며, 각종 툴·API·SDK로 즉시 활용 가능  
  
---  
  
### 개요 및 배경  
  
- 작년 초 출시된 **최초의 Gemma 모델**은 1억6천만회 이상의 다운로드를 기록하며 Gemmaverse라는 생태계로 성장함  
- 이 생태계에는 **보안, 의료** 등 다양한 특화 모델과 커뮤니티 기여로 만들어진 여러 혁신적 활용 사례가 포함됨  
- Google은 이러한 성공에 힘입어, **모바일 중심으로 설계된 Gemma 3n의 공식 릴리즈**를 발표함  
- Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama 등 개발자 친화적 생태계와 도구의 광범위한 통합을 제공함  
- Gemma 3n의 핵심 혁신·벤치마크와 개발 방법에 대해 개발자 관점에서 심층적으로 소개함  
  
### What’s new in Gemma 3n?  
  
- **Gemma 3n**은 온디바이스 AI의 새로운 도약을 의미함  
- 텍스트, 이미지, 오디오, 비디오 입력 및 텍스트 출력의 **네이티브 멀티모달** 지원을 제공함  
- 효율성을 극대화하여 **E2B(5B 파라미터), E4B(8B 파라미터)** 두 가지 모델 크기로 제공하며, 낮은 메모리(2GB, 3GB)로도 실행 가능함  
- **MatFormer, Per Layer Embeddings, LAuReL, AltUp 등의 혁신적 아키텍처** 적용과 새로운 오디오·비전 인코더 탑재함  
- 140개 언어 지원, 35개 언어의 멀티모달 이해, 수학·코딩·추론능력 강화, E4B 기준 LMArena 1300점 돌파  
  
### MatFormer: 하나의 모델, 다양한 크기  
  
- **MatFormer(🪆Matryoshka Transformer) 아키텍처**는 확장성과 유연성을 위해 설계된 새로운 트랜스포머 구조임  
- 큰 모델 내부에 작은 모델이 독립적으로 포함되는 러시아 마트료시카 원리를 활용함  
- E4B 학습 시 E2B 서브모델을 동시에 최적화하여, 별도의 사전 추출된 모델 다운로드와 최대 2배 빠른 추론 가능함  
- **Mix-n-Match** 방식으로 하드웨어 제약에 맞춘 맞춤형 중간 모델(피드포워드 네트워크 또는 레이어 스킵 활용) 생성 가능함  
- MatFormer Lab에서 벤치마크 기반 최적 세팅 확인 및 모델 생성 가능함  
- 미래에는 Elastic execution(실시간 동적 모델 크기 전환)도 지원할 계획임  
  
### Per-Layer Embeddings (PLE): 온디바이스 메모리 효율 극대화  
  
- **Per-Layer Embeddings(레이어별 임베딩)** 으로 온디바이스 배포 시 품질 향상, 메모리 사용 최소화 실현함  
- 전체 파라미터(5B/8B) 중 임베딩만 CPU에서 효율적으로 로드/처리, 트랜스포머 코어(2B/4B)만 VRAM에 상주함  
- 덕분에 기존 대비 훨씬 작은 메모리(가속기에 약 2B 파라미터만)를 사용하면서도 품질 저하 없이 작동 가능함  
  
### KV Cache Sharing: 긴 컨텍스트 입력 최적화  
  
- Gemma 3n은 긴 오디오/비디오 등 순차적 입력을 빠르게 처리하기 위해 **KV Cache Sharing 기능**을 추가함  
- 프리필(초기 입력 처리) 단계에서 중간 레이어의 KV 캐시를 상위 레이어에 직접 공유, 최대 2배 이상 성능 개선  
- 긴 시퀀스 프롬프트를 기존보다 빠르게 인식하여 멀티모달 애플리케이션의 실시간성 향상 가능함  
  
### 오디오 인식: STT 및 번역 지원  
  
- **Universal Speech Model(USM)** 기반의 오디오 인코더를 탑재, 160ms 단위의 오디오 토큰을 언어 모델 입력으로 활용함  
- 온디바이스 **고품질 음성 인식(ASR), 음성 번역(AST)** 구현 가능함  
- 영어↔스페인어, 프랑스어, 이탈리아어, 포르투갈어 등 주요 언어쌍에서 높은 성능이 확인됨  
- Chain-of-Thought 프롬프트 기법을 활용하면 번역 품질 향상이 가능함  
- 최초(런칭 시점) 오디오 인코더는 30초 클립까지 지원, 추후 더 긴 스트리밍 처리도 가능하도록 확장 예정임  
  
### MobileNet-V5: 최신 비전 인코더  
  
- Gemma 3n에 통합된 **MobileNet-V5-300M**은 엣지 디바이스에서도 강력한 성능을 제공하는 고효율 비전 인코더임  
- 256x256, 512x512, 768x768 픽셀 등 다양한 입력 해상도를 지원하여 요구에 맞는 성능·디테일 조정 가능함  
- 대규모 멀티모달 데이터셋 기반 공동 학습으로 이미지·비디오 이해 광범위성 실현 및 구체적 시각 과제 처리에 능함  
- Google Pixel에서 **초당 60프레임 실시간** 분석 가능  
- 아키텍처 측면에서는 MobileNet-V4 기반 블록(유니버설 인버티드 보틀넥, Mobile MQA) 및 하이브리드 피라미드 구조, Multi-Scale Fusion VLM 어댑터 등 다수 혁신 적용함  
- SoViT(Gemma 3 베이스라인) 대비 **13배 속도, 46% 파라미터 절감, 4배 작은 메모리, 더 높은 정확도**로 월등함  
- 기술 보고서 내 아키텍처, 데이터 확장 전략, 딥러닝 증류 기법 등 추가 공개 예정임  
  
### 실전 적용 및 사용법  
  
- **AI Studio에서 바로 사용해보기**: [https://aistudio.google.com/prompts/new\_chat?model=gemma-3n-e4b-it](https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it)  
- **모델 다운로드/배포**: Hugging Face, Kaggle, Ollama, llama.cpp 등에서 즉시 사용 가능  
- **툴·프레임워크 연동**: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth 등 대부분 지원  
- **API·클라우드 배포**: Google GenAI API, Vertex AI, NVIDIA API 등 다양한 환경에서 배포  
  
### 주요 온디바이스 활용 시나리오  
  
- **스마트폰/엣지 디바이스 내 실시간 AI 비서·음성 번역기·멀티모달 챗봇·실시간 비전 분석·IoT**  
- **리소스 제약 환경에서의 AI 서비스 내재화**  
- **오프라인·네트워크 제약 환경에서의 AI 혁신**  
  
### 개발자 리소스  
  
- [공식 문서](https://ai.google.dev/gemma/docs/gemma-3n)  
- [모델 다운로드(HF)](https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4)  
- [MatFormer Lab](https://goo.gle/gemma3n-matformer-lab)  
- [구글 AI Studio에서 사용해보기](https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it)  
- [오픈소스 생태계 연동](https://huggingface.co/blog/gemma3n), [Ollama](https://ollama.com/library/gemma3n), [MLX](https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc), [llama.cpp](https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7) 등  
  
### Gemma 3n Impact Challenge  
  
- **온디바이스/오프라인/멀티모달 기능을 활용해 실질적 사회적 임팩트가 있는 제품 개발 공모전 개최**  
  * 상금 \$150,000, 영상·데모 제출 필요: [https://www.kaggle.com/competitions/google-gemma-3n-hackathon](https://www.kaggle.com/competitions/google-gemma-3n-hackathon)

## Comments


### Comment 40693

- Author: neo
- Created: 2025-06-27T15:37:45+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44389202)   
- 이 모델은 예전 gemma3로 진행하던 모든 작업과 **완벽 호환성**을 보여줌, 내 vlm 파인튜닝 스크립트에 바로 연결해봤는데 문제 없이 동작함(hf transformer 코드 기준임). Lora로 싱글 GPU에서 E4B 모델을 실행하면 batch size 1 기준 **18Gb** VRAM이 필요하고, gemma-4B는 21Gb 필요했음. deepmind에서 정말 잘 만들었음, gemma3 시리즈가 공개 가중치 VLLM 중 최고임  
  - 수정: 현재 언급하는 모델은 **E2B**임  
- "펠리컨이 자전거를 타는 SVG 생성" 프롬프트를 Gemma 3n 7.5GB (Ollama)와 mlx-vlm의 15GB 버전에 적용해봤고, 두 가지 **양자화 크기**마다 결과가 상이해서 재밌었음. 결과는 여기에 올려놨음: https://simonwillison.net/2025/Jun/26/gemma-3n/  
  - 이게 실제로 의미 있는 **벤치마크**라고 할 수 있을까, 아니면 단순히 재미용인지 궁금함. 사실 잘 이해되지 않음  
- 아직도 **Gemma**와 **Gemini**가 온디바이스 환경에서 어떻게 다른지 잘 이해가 안 됨, 둘 다 네트워크 연결 없이 사용할 수 있다는 점은 똑같음. 공식 문구 활용 예시: "Gemini Nano는 네트워크 연결 없이도 풍부한 생성형 AI 경험을 제공합니다" — 이 문장에서 Gemini 대신 Gemma를 넣어도 완전히 맞는 내용임  
  - 차이는 **라이선스**임. Gemini Nano 가중치는 직접 사용할 수 없고(특히 상업용일 때), 반드시 Android MLKit이나 Google에서 승인한 런타임을 통해서만 접근 가능함. 반면 Gemma는 원하는 런타임, 프레임워크 어디서든 **상업적으로 사용 가능**함  
  - Gemma 3n 프리뷰 블로그를 보면 Gemma 3n과 새로운 Gemini Nano 버전이 같은 **아키텍처**를 공유함. 여기서 n은 Nano의 약자라고 봄. Nano는 Android에 내장되는 **독점 모델**이고, Gemma는 **오픈 모델**이라 어디든 자유롭게 적용 가능함. 관련 출처들은 구글 공식 블로그와 영상에 있음  
  - Gemma는 오픈소스이고 **apache 2.0 라이선스**임. 앱에 포함하려면 스스로 패키징해야 함. 반면 Gemini Nano는 완전히 **제어할 수 없는 Android API**임  
  - 두 모델의 차이가 **학습 데이터**일 거라고 추측함. Gemini 쪽은 훨씬 더 엄격하게 관리되고, 학습 데이터에 있던 걸 반복 출력하려 하면 'recitation error'가 발생할 수 있음  
- OpenAI 덕분에 업계에서 이런 **무질서한 네이밍**이 표준이 된 것 같아서 개인적으로 별로임  
  - 그렇다면 어떤 이름을 지었을 것인지 궁금함  
- GGUF 버전을 직접 만들었으니 필요하면 누구든 사용해볼 수 있음! ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0 이런 식으로 실행함. 또한 inference + finetuning을 위한 **Colab 데모**도 만들고 있음. Gemma 3N은 **오디오, 텍스트, 비전**까지 지원해서 정말 인상적임. 자세한 내용은 https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune 참고  
  - Ollama에서 E4B 모델을 테스트해봤는데 이미지 해석이 완전히 **잘못 동작**함. 출력이 텍스트에만 의존하고, 항상 일관되게 잘못 나오며, 정식 Gemma 3 4B는 잘 되길래 Ollama 문제라고 판단함. 조사해보니 현재는 **텍스트 전용** 지원임[1], 이 점이 좀 더 명확하게 안내되었으면 함. llama.cpp를 직접 빌드하기 귀찮아서, GGUF가 지원될 때까지 기다려볼 예정임. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264  
  - Unsloth 버전을 쓰려고 타이핑하고 있었는데 이미 만들어서 올린 모습 보고 감탄하게 됨. 대단함!  
  - 고마움! 이런 모델 실행하려면 **어떤 PC 사양**이 필요한지 궁금함  
  - 여기서 `jinja`가 의미하는 건 뭔지 궁금함  
- 솔직히 이런 **소형 모델**들이 실사용에 어떻게 도움이 되는지 의문임. 여러 시도를 해봤는데 27B보다 작은 모델은 장난감 수준 이상 쓰기 힘들고, 가끔씩만 좋은 답변을 주는 게 전부임. gemma3:27b-it-qat로 스팸 필터 문제 해결했고, 내 벤치마크 결과도 그 선에서 쓸만해짐을 확인함  
  - **정확도가 낮아도** 실제로 쓸 곳이 있음. 미래에 어떤 제품이 나올지는 모르겠으나 이미 오늘날 다음과 같은 사례가 있음: 아이폰 키보드에서 **작은 언어 모델**이 다음 단어 추천할 때 사용됨(사용자가 제안된 단어만 고르면 됨). 그리고 **speculative decoding**처럼 작은 모델이 큰 모델 추론 속도를 올리는데 활용됨. 앞으로 더 똑똑한 활용처가 등장할 것임  
  - 이런 소형 모델은 **기초 인프라**로 보면 충분히 활용도 있음. 언젠가 대부분의 **휴대폰에 내장 LLM**이 탑재되는 미래가 오면 정말 좋겠음, 마치 기본 인프라처럼 되는 그런 상황을 희망함  
  - 내가 찾아낸 가장 좋은 소형 모델(<5bn params) 활용법은 **오프라인 참조 도구**임. 비행기에서 코딩할 때 Google 대신 MacBook Air에 qwen을 설치해서 문법, 문서화 등 기초 질문을 묻는 용도로 유용함  
  - 4b 이하의 소형 모델은 **특정 태스크 파인튜닝**에 최적화돼서, 아주 저렴하게 상업 모델보다 좋은 결과도 가능함. **코드 자동완성**에서도 좋음. 7b~8b 모델은 코드 리팩토링 등 빠르고 단순한 코딩 과제에 괜찮음(예: "SomeType 타입 인자가 있는 모든 함수명을 ST_로 프리픽스 추가하기"). 12b 모델부터는 미스트랄 Nemo나 Gemma 3 12b처럼 **일관성 있는 문장**까지 생성할 수 있음  
- Kevin Kwok이 모델 구조 **리버스 엔지니어링**을 아주 잘 정리했으니 참고 바람: https://github.com/antimatter15/reverse-engineering-gemma-3n  
- Google 사이트 어딘가에 각 **제품명, 설명, 기능**을 표로 정리해둔 데이터가 필요함  
- 그래프의 **Y축**이 정말 웃기게 그려져 있음  
- gemma 3n의 **배포 버전**을 실제로 사용하면 얼마가 드는지 아는 사람? 문서에는 gemini api로 gemma 3n을 쓸 수 있다고 나와 있는데, 가격은 "unavailable"로만 표시됨