구글 Gemma 3n 공개 - 새로운 온디바이스 멀티모달 AI의 등장

(developers.googleblog.com)

1P by GN⁺ 5달전 | ★ favorite | 댓글 1개

Gemma 3n은 모바일·엣지 환경을 위한 최신 온디바이스 멀티모달 AI 모델로, 이미지·오디오·비디오·텍스트를 모두 처리할 수 있음
효율성 중심 구조와 혁신적 아키텍처(Matformer, Per-Layer Embeddings, MobileNet-V5 등) 로, 기존 클라우드 대형 모델 수준의 성능을 2~3GB 메모리에서 구현
E2B/E4B 두 가지 모델 크기 제공 및 Mix-n-Match 방식으로 하드웨어에 맞춘 세밀한 커스텀 사이즈 지원
음성 인식·번역, 실시간 비전 분석, 140개 언어 다국어 처리 등 다양한 온디바이스 AI 활용 사례에 즉시 적용 가능
Hugging Face, Ollama, llama.cpp 등 주요 AI 오픈소스 생태계와 광범위하게 연동되며, 각종 툴·API·SDK로 즉시 활용 가능

개요 및 배경

작년 초 출시된 최초의 Gemma 모델은 1억6천만회 이상의 다운로드를 기록하며 Gemmaverse라는 생태계로 성장함
이 생태계에는 보안, 의료 등 다양한 특화 모델과 커뮤니티 기여로 만들어진 여러 혁신적 활용 사례가 포함됨
Google은 이러한 성공에 힘입어, 모바일 중심으로 설계된 Gemma 3n의 공식 릴리즈를 발표함
Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama 등 개발자 친화적 생태계와 도구의 광범위한 통합을 제공함
Gemma 3n의 핵심 혁신·벤치마크와 개발 방법에 대해 개발자 관점에서 심층적으로 소개함

What’s new in Gemma 3n?

Gemma 3n은 온디바이스 AI의 새로운 도약을 의미함
텍스트, 이미지, 오디오, 비디오 입력 및 텍스트 출력의 네이티브 멀티모달 지원을 제공함
효율성을 극대화하여 E2B(5B 파라미터), E4B(8B 파라미터) 두 가지 모델 크기로 제공하며, 낮은 메모리(2GB, 3GB)로도 실행 가능함
MatFormer, Per Layer Embeddings, LAuReL, AltUp 등의 혁신적 아키텍처 적용과 새로운 오디오·비전 인코더 탑재함
140개 언어 지원, 35개 언어의 멀티모달 이해, 수학·코딩·추론능력 강화, E4B 기준 LMArena 1300점 돌파

MatFormer: 하나의 모델, 다양한 크기

MatFormer(🪆Matryoshka Transformer) 아키텍처는 확장성과 유연성을 위해 설계된 새로운 트랜스포머 구조임
큰 모델 내부에 작은 모델이 독립적으로 포함되는 러시아 마트료시카 원리를 활용함
E4B 학습 시 E2B 서브모델을 동시에 최적화하여, 별도의 사전 추출된 모델 다운로드와 최대 2배 빠른 추론 가능함
Mix-n-Match 방식으로 하드웨어 제약에 맞춘 맞춤형 중간 모델(피드포워드 네트워크 또는 레이어 스킵 활용) 생성 가능함
MatFormer Lab에서 벤치마크 기반 최적 세팅 확인 및 모델 생성 가능함
미래에는 Elastic execution(실시간 동적 모델 크기 전환)도 지원할 계획임

Per-Layer Embeddings (PLE): 온디바이스 메모리 효율 극대화

Per-Layer Embeddings(레이어별 임베딩) 으로 온디바이스 배포 시 품질 향상, 메모리 사용 최소화 실현함
전체 파라미터(5B/8B) 중 임베딩만 CPU에서 효율적으로 로드/처리, 트랜스포머 코어(2B/4B)만 VRAM에 상주함
덕분에 기존 대비 훨씬 작은 메모리(가속기에 약 2B 파라미터만)를 사용하면서도 품질 저하 없이 작동 가능함

KV Cache Sharing: 긴 컨텍스트 입력 최적화

Gemma 3n은 긴 오디오/비디오 등 순차적 입력을 빠르게 처리하기 위해 KV Cache Sharing 기능을 추가함
프리필(초기 입력 처리) 단계에서 중간 레이어의 KV 캐시를 상위 레이어에 직접 공유, 최대 2배 이상 성능 개선
긴 시퀀스 프롬프트를 기존보다 빠르게 인식하여 멀티모달 애플리케이션의 실시간성 향상 가능함

오디오 인식: STT 및 번역 지원

Universal Speech Model(USM) 기반의 오디오 인코더를 탑재, 160ms 단위의 오디오 토큰을 언어 모델 입력으로 활용함
온디바이스 고품질 음성 인식(ASR), 음성 번역(AST) 구현 가능함
영어↔스페인어, 프랑스어, 이탈리아어, 포르투갈어 등 주요 언어쌍에서 높은 성능이 확인됨
Chain-of-Thought 프롬프트 기법을 활용하면 번역 품질 향상이 가능함
최초(런칭 시점) 오디오 인코더는 30초 클립까지 지원, 추후 더 긴 스트리밍 처리도 가능하도록 확장 예정임

MobileNet-V5: 최신 비전 인코더

Gemma 3n에 통합된 MobileNet-V5-300M은 엣지 디바이스에서도 강력한 성능을 제공하는 고효율 비전 인코더임
256x256, 512x512, 768x768 픽셀 등 다양한 입력 해상도를 지원하여 요구에 맞는 성능·디테일 조정 가능함
대규모 멀티모달 데이터셋 기반 공동 학습으로 이미지·비디오 이해 광범위성 실현 및 구체적 시각 과제 처리에 능함
Google Pixel에서 초당 60프레임 실시간 분석 가능
아키텍처 측면에서는 MobileNet-V4 기반 블록(유니버설 인버티드 보틀넥, Mobile MQA) 및 하이브리드 피라미드 구조, Multi-Scale Fusion VLM 어댑터 등 다수 혁신 적용함
SoViT(Gemma 3 베이스라인) 대비 13배 속도, 46% 파라미터 절감, 4배 작은 메모리, 더 높은 정확도로 월등함
기술 보고서 내 아키텍처, 데이터 확장 전략, 딥러닝 증류 기법 등 추가 공개 예정임

실전 적용 및 사용법

AI Studio에서 바로 사용해보기: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
모델 다운로드/배포: Hugging Face, Kaggle, Ollama, llama.cpp 등에서 즉시 사용 가능
툴·프레임워크 연동: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth 등 대부분 지원
API·클라우드 배포: Google GenAI API, Vertex AI, NVIDIA API 등 다양한 환경에서 배포

주요 온디바이스 활용 시나리오

스마트폰/엣지 디바이스 내 실시간 AI 비서·음성 번역기·멀티모달 챗봇·실시간 비전 분석·IoT
리소스 제약 환경에서의 AI 서비스 내재화
오프라인·네트워크 제약 환경에서의 AI 혁신

개발자 리소스

Gemma 3n Impact Challenge

온디바이스/오프라인/멀티모달 기능을 활용해 실질적 사회적 임팩트가 있는 제품 개발 공모전 개최
- 상금 $150,000, 영상·데모 제출 필요: https://www.kaggle.com/competitions/google-gemma-3n-hackathon

▲

GN⁺ 5달전 [-]

Hacker News 의견

이 모델은 예전 gemma3로 진행하던 모든 작업과 완벽 호환성을 보여줌, 내 vlm 파인튜닝 스크립트에 바로 연결해봤는데 문제 없이 동작함(hf transformer 코드 기준임). Lora로 싱글 GPU에서 E4B 모델을 실행하면 batch size 1 기준 18Gb VRAM이 필요하고, gemma-4B는 21Gb 필요했음. deepmind에서 정말 잘 만들었음, gemma3 시리즈가 공개 가중치 VLLM 중 최고임
- 수정: 현재 언급하는 모델은 E2B임
"펠리컨이 자전거를 타는 SVG 생성" 프롬프트를 Gemma 3n 7.5GB (Ollama)와 mlx-vlm의 15GB 버전에 적용해봤고, 두 가지 양자화 크기마다 결과가 상이해서 재밌었음. 결과는 여기에 올려놨음: https://simonwillison.net/2025/Jun/26/gemma-3n/
- 이게 실제로 의미 있는 벤치마크라고 할 수 있을까, 아니면 단순히 재미용인지 궁금함. 사실 잘 이해되지 않음
아직도 Gemma와 Gemini가 온디바이스 환경에서 어떻게 다른지 잘 이해가 안 됨, 둘 다 네트워크 연결 없이 사용할 수 있다는 점은 똑같음. 공식 문구 활용 예시: "Gemini Nano는 네트워크 연결 없이도 풍부한 생성형 AI 경험을 제공합니다" — 이 문장에서 Gemini 대신 Gemma를 넣어도 완전히 맞는 내용임
- 차이는 라이선스임. Gemini Nano 가중치는 직접 사용할 수 없고(특히 상업용일 때), 반드시 Android MLKit이나 Google에서 승인한 런타임을 통해서만 접근 가능함. 반면 Gemma는 원하는 런타임, 프레임워크 어디서든 상업적으로 사용 가능함
- Gemma 3n 프리뷰 블로그를 보면 Gemma 3n과 새로운 Gemini Nano 버전이 같은 아키텍처를 공유함. 여기서 n은 Nano의 약자라고 봄. Nano는 Android에 내장되는 독점 모델이고, Gemma는 오픈 모델이라 어디든 자유롭게 적용 가능함. 관련 출처들은 구글 공식 블로그와 영상에 있음
- Gemma는 오픈소스이고 apache 2.0 라이선스임. 앱에 포함하려면 스스로 패키징해야 함. 반면 Gemini Nano는 완전히 제어할 수 없는 Android API임
- 두 모델의 차이가 학습 데이터일 거라고 추측함. Gemini 쪽은 훨씬 더 엄격하게 관리되고, 학습 데이터에 있던 걸 반복 출력하려 하면 'recitation error'가 발생할 수 있음
OpenAI 덕분에 업계에서 이런 무질서한 네이밍이 표준이 된 것 같아서 개인적으로 별로임
- 그렇다면 어떤 이름을 지었을 것인지 궁금함
GGUF 버전을 직접 만들었으니 필요하면 누구든 사용해볼 수 있음! ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0 이런 식으로 실행함. 또한 inference + finetuning을 위한 Colab 데모도 만들고 있음. Gemma 3N은 오디오, 텍스트, 비전까지 지원해서 정말 인상적임. 자세한 내용은 https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune 참고
- Ollama에서 E4B 모델을 테스트해봤는데 이미지 해석이 완전히 잘못 동작함. 출력이 텍스트에만 의존하고, 항상 일관되게 잘못 나오며, 정식 Gemma 3 4B는 잘 되길래 Ollama 문제라고 판단함. 조사해보니 현재는 텍스트 전용 지원임[1], 이 점이 좀 더 명확하게 안내되었으면 함. llama.cpp를 직접 빌드하기 귀찮아서, GGUF가 지원될 때까지 기다려볼 예정임. [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
- Unsloth 버전을 쓰려고 타이핑하고 있었는데 이미 만들어서 올린 모습 보고 감탄하게 됨. 대단함!
- 고마움! 이런 모델 실행하려면 어떤 PC 사양이 필요한지 궁금함
- 여기서 jinja가 의미하는 건 뭔지 궁금함
솔직히 이런 소형 모델들이 실사용에 어떻게 도움이 되는지 의문임. 여러 시도를 해봤는데 27B보다 작은 모델은 장난감 수준 이상 쓰기 힘들고, 가끔씩만 좋은 답변을 주는 게 전부임. gemma3:27b-it-qat로 스팸 필터 문제 해결했고, 내 벤치마크 결과도 그 선에서 쓸만해짐을 확인함
- 정확도가 낮아도 실제로 쓸 곳이 있음. 미래에 어떤 제품이 나올지는 모르겠으나 이미 오늘날 다음과 같은 사례가 있음: 아이폰 키보드에서 작은 언어 모델이 다음 단어 추천할 때 사용됨(사용자가 제안된 단어만 고르면 됨). 그리고 speculative decoding처럼 작은 모델이 큰 모델 추론 속도를 올리는데 활용됨. 앞으로 더 똑똑한 활용처가 등장할 것임
- 이런 소형 모델은 기초 인프라로 보면 충분히 활용도 있음. 언젠가 대부분의 휴대폰에 내장 LLM이 탑재되는 미래가 오면 정말 좋겠음, 마치 기본 인프라처럼 되는 그런 상황을 희망함
- 내가 찾아낸 가장 좋은 소형 모델(<5bn params) 활용법은 오프라인 참조 도구임. 비행기에서 코딩할 때 Google 대신 MacBook Air에 qwen을 설치해서 문법, 문서화 등 기초 질문을 묻는 용도로 유용함
- 4b 이하의 소형 모델은 특정 태스크 파인튜닝에 최적화돼서, 아주 저렴하게 상업 모델보다 좋은 결과도 가능함. 코드 자동완성에서도 좋음. 7b~8b 모델은 코드 리팩토링 등 빠르고 단순한 코딩 과제에 괜찮음(예: "SomeType 타입 인자가 있는 모든 함수명을 ST_로 프리픽스 추가하기"). 12b 모델부터는 미스트랄 Nemo나 Gemma 3 12b처럼 일관성 있는 문장까지 생성할 수 있음
Kevin Kwok이 모델 구조 리버스 엔지니어링을 아주 잘 정리했으니 참고 바람: https://github.com/antimatter15/reverse-engineering-gemma-3n
Google 사이트 어딘가에 각 제품명, 설명, 기능을 표로 정리해둔 데이터가 필요함
그래프의 Y축이 정말 웃기게 그려져 있음
gemma 3n의 배포 버전을 실제로 사용하면 얼마가 드는지 아는 사람? 문서에는 gemini api로 gemma 3n을 쓸 수 있다고 나와 있는데, 가격은 "unavailable"로만 표시됨

답변달기