# Google, 오픈 모델 Gemma 4 공개

> Clean Markdown view of GeekNews topic #28138. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28138](https://news.hada.io/topic?id=28138)
- GeekNews Markdown: [https://news.hada.io/topic/28138.md](https://news.hada.io/topic/28138.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-03T09:22:19+09:00
- Updated: 2026-04-03T09:22:19+09:00
- Original source: [deepmind.google](https://deepmind.google/models/gemma/gemma-4/)
- Points: 10
- Comments: 2

## Summary

Google DeepMind가 **Gemma 4를 공개**했습니다. Gemini 3 기술 기반의 오픈 모델로, **E2B·E4B·26B·31B** 네 가지 크기로 제공됩니다. 모바일용 소형 모델(E2B·E4B)은 오디오 입력까지 지원하고, 31B 모델은 AIME 2026 수학 벤치마크에서 **89.2%**, 코딩에서 **80.0%** 를 기록하며 Gemma 3 대비 전 영역에서 성능이 올랐습니다. **140개 언어 지원**과 **네이티브 함수 호출**로 에이전트 구축에도 바로 쓸 수 있고요. Hugging Face, Ollama, LM Studio 등에서 바로 받을 수 있으니, 위에서 소개한 비주얼 가이드와 함께 살펴보시면 좋겠습니다.

## Topic Body

- Google DeepMind가 **Gemini 3 기술을 기반으로 한 차세대 오픈 AI 모델 Gemma 4**를 발표, **매개변수당 지능 효율**을 극대화한 구조로 설계됨
- 모델은 **E2B, E4B, 26B, 31B** 네 가지 크기로 제공되며, **모바일·IoT부터 개인용 GPU 환경까지** 폭넓은 실행 범위를 지원
- **멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처** 등 주요 기능을 포함
- **수학·코딩·멀티모달 이해** 영역에서 Gemma 3 대비 성능이 크게 향상되었으며, **보안·신뢰성 기준**은 Google 상용 모델과 동일 수준 유지
- 모델 가중치는 **Hugging Face, Ollama, Kaggle, LM Studio, Docker** 등에서 다운로드 가능하며, **로컬 및 클라우드 환경 통합 실행**을 지원함

---

### Gemma 4 — 차세대 오픈 AI 모델
- **Gemma 4**는 **Gemini 3의 연구와 기술**을 기반으로 개발된 Google DeepMind의 최신 오픈 모델로, **매개변수당 지능 효율(intelligence-per-parameter)** 을 극대화한 구조를 가짐
- 모델은 **E2B, E4B, 26B, 31B** 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 워크스테이션까지 다양한 환경에서 실행 가능
- **멀티모달 추론**, **140개 언어 지원**, **에이전트형 워크플로**, **세밀한 파인튜닝**, **효율적 아키텍처**를 주요 기능으로 포함
- **성능 벤치마크**에서 Gemma 3 대비 전반적인 향상치를 기록하며, 특히 수학·코딩·멀티모달 이해 영역에서 높은 점수를 달성
- **보안·신뢰성 기준**은 Google의 상용 모델과 동일 수준으로 유지되며, Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 모델 가중치를 다운로드 가능

### 모델 구성 및 효율성
- Gemma 4는 **Gemini 3의 기술 기반**으로 설계되어 **지능 효율을 극대화**한 오픈 모델 구조를 채택
- 모델 크기는 **E2B, E4B, 26B, 31B** 네 가지 버전으로 구분되며, 각 버전은 **컴퓨팅 자원과 메모리 효율성**에 따라 최적화됨
  - **E2B·E4B**: 모바일 및 IoT 기기용으로, **최대 효율성과 오프라인 실행** 지원
  - **26B·31B**: 개인용 GPU 환경에서 **프론티어급 추론 능력** 제공

### 주요 기능
- ## Agentic workflows
  - **함수 호출(function calling)** 을 네이티브로 지원해, 사용자를 대신해 **계획·앱 탐색·작업 수행**이 가능한 자율형 에이전트 구축 가능
- ## Multimodal reasoning
  - **오디오와 비주얼 이해 능력**을 결합해 풍부한 **멀티모달 애플리케이션 개발** 지원
- ## Support for 140 languages
  - 단순 번역을 넘어 **문화적 맥락 이해**를 포함한 다국어 경험 생성 가능
- ## Fine tuning
  - 사용자가 선호하는 프레임워크와 기법으로 **특정 작업 성능 향상**을 위한 파인튜닝 가능
- ## Efficient architecture
  - **자체 하드웨어에서 실행 가능**하며, 효율적인 개발 및 배포 환경 제공

### 성능
- Gemma 4는 다양한 **텍스트 생성 관련 데이터셋과 지표**를 기반으로 평가됨
- 주요 벤치마크 결과 (Gemma 4 31B IT 기준):
  - **Arena AI (text)**: 1452 (Gemma 3 27B 대비 1365)
  - **MMMLU (다국어 Q&A)**: 85.2%
  - **MMMU Pro (멀티모달 추론)**: 76.9%
  - **AIME 2026 (수학)**: 89.2%
  - **LiveCodeBench v6 (코딩 문제)**: 80.0%
  - **GPQA Diamond (과학 지식)**: 84.3%
  - **τ2-bench (에이전트 도구 사용)**: 86.4%
- 전반적으로 Gemma 3 대비 **모든 항목에서 성능 향상**을 보이며, 특히 **수학·코딩·멀티모달 이해** 영역에서 큰 개선

### E2B 및 E4B — 모바일 및 IoT용
- **오디오·비전 지원**을 통해 **엣지 디바이스에서 실시간 처리** 가능
- **스마트폰, Raspberry Pi, Jetson Nano** 등에서 **완전 오프라인 실행** 및 **거의 제로 지연(latency)** 성능 제공
- Google AI Edge Gallery를 통해 체험 가능

### 26B 및 31B — 고성능 로컬 AI
- **IDE, 코딩 어시스턴트, 에이전트형 워크플로**에 적합한 고급 추론 기능 제공
- **소비자용 GPU에 최적화**되어 학생·연구자·개발자가 **로컬 AI 서버 환경**을 구축 가능
- Google AI Studio에서 직접 실행 가능

### 보안 및 신뢰성
- Gemma 4는 Google의 **상용 모델과 동일한 인프라 보안 프로토콜**을 적용
- **기업 및 공공기관**이 사용할 수 있는 **투명하고 신뢰할 수 있는 기반** 제공
- **최고 수준의 보안·신뢰성 기준**을 충족하면서도 **최신 AI 기능**을 제공

### 다운로드 및 실행
- ## 모델 가중치 다운로드
  - **Hugging Face**, **Ollama**, **Kaggle**, **LM Studio**, **Docker Hub**에서 Gemma 4 모델 가중치 제공
- ## 학습 및 배포 지원
  - **Jax**, **Vertex AI**, **Keras**, **Google AI Edge**, **Google Kubernetes Engine**, **Ollama** 등 다양한 플랫폼과 통합 지원
  - 공식 문서 및 API를 통해 **훈련·배포·추론 환경 구성** 가능

### Gemmaverse 커뮤니티
- **Gemmaverse**를 통해 전 세계 개발자들이 Gemma를 활용해 구축한 프로젝트를 탐색 가능
- Google DeepMind의 **X, Instagram, YouTube, LinkedIn, GitHub** 채널을 통해 최신 업데이트 제공
- 구독을 통해 **최신 AI 혁신 소식** 수신 가능

## Comments



### Comment 54519

- Author: neo
- Created: 2026-04-03T09:22:19+09:00
- Points: 2

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47616361) 
- **Gemma 4**의 reasoning·멀티모달·툴 호출 기능을 통합한 버전을 공개했음  
  [Hugging Face 컬렉션](https://huggingface.co/collections/unsloth/gemma-4)에서 양자화된 모델을 받을 수 있고, [Unsloth 가이드](https://unsloth.ai/docs/models/gemma-4)도 함께 제공됨  
  추천 파라미터는 temperature=1.0, top_p=0.95, top_k=64, EOS는 `"`이며, thinking trace는 `<|channel>thought\n`을 사용함
  - Daniel의 작업이 세상을 바꾸고 있음  
    나는 **OCR·임베딩·요약 파이프라인**을 구축해 1800년대 토지 기록을 검색 가능하게 했음  
    GGUF와 llama.cpp 기반으로 다국어 검색이 가능해졌고, 1분 처리 대기 시간은 아무 문제로 느껴지지 않음
  - llama.cpp에서 “thinking”을 끄려 했지만 `--reasoning-budget 0`이나 `--chat-template-kwargs '{"enable_thinking":false}'`가 작동하지 않았음  
    새 플래그 `--reasoning off`를 써야 함을 발견했음  
    MacBook Air M4(32GB)에서 **unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL**을 테스트했는데, qwen3.5-35b-a3b보다 훨씬 인상적이었음
  - 가이드의 “Search and download Gemma 4” 단계 스크린샷이 qwen3.5용으로 되어 있고, Unsloth Studio에서는 Gemma 3 모델만 보임
  - 초보 질문이지만, 왜 원본 모델 대신 이 버전을 써야 하는지 궁금함
  - Windows 11에서 Unsloth로 Gemma 4를 설치하다가 비밀번호 설정 단계에서 오류가 발생했음  
    PowerShell이 여러 컴포넌트를 설치한 뒤 `localhost` URL을 열라고 했는데, 그 직후 실패했음  
    개발자가 아니라 PowerShell 사용이 낯설어 어려웠고, **단일 실행 파일(.exe)** 형태로 배포되면 좋겠음

- LM Studio에서 Gemma 4 모델들을 테스트했음  
  2B·4B 모델은 이상한 펠리컨 이미지를, 26B-A4B 모델은 지금까지 본 중 가장 뛰어난 결과를 냈음  
  [테스트 결과](https://simonwillison.net/2026/Apr/2/gemma-4/)를 공유함  
  31B 모델은 로컬에서는 "---\n"만 출력했지만, AI Studio API에서는 정상 작동했음
  - 펠리컨 벤치마크 덕분에 매번 모델 출시 때마다 Hacker News 댓글을 확인하게 됨
  - 혹시 펠리컨이 이제 **학습 데이터** 일부가 된 건 아닌지 궁금함
  - 모든 펠리컨 이미지를 한눈에 볼 수 있는 **갤러리 페이지**가 있으면 좋겠음  
    예: [clocks.brianmoore.com](https://clocks.brianmoore.com/)
  - instruction-tuned 버전을 쓰면 펠리컨 품질이 훨씬 좋아질 것 같음
  - 어떤 **노트북 사양**에서 실행했는지 궁금함

- Gemma 4와 Qwen 3.5의 벤치마크를 비교한 표를 정리했음  
  MMLU-Pro, GPQA, Codeforces ELO 등 다양한 지표를 포함함
  - ELO 점수가 tfa의 그래프와 크게 다름  
    Qwen 3.5-27B와 Gemma 4 26B/31B를 비교했을 때 결과가 뒤바뀐 부분이 있음  
    Unsloth 팀이 GGUF를 빠르게 공개한 점은 인상적이며, **Qwen 3.5와 동급**이라면 매우 고무적임
  - 24GB GPU를 가진 사용자가 이 표에서 어떤 모델을 선택해야 할지 잘 모르겠음
  - 축을 뒤집고 일부 모델을 제거한 비교는 오히려 **오해를 부를 수 있음**  
    작은 Gemma 모델은 Qwen의 소형 모델보다 훨씬 약함  
    [Qwen3.5-4B](https://huggingface.co/Qwen/Qwen3.5-4B)와 [Gemma 4 관련 Reddit 스레드](https://www.reddit.com/r/LocalLLaMA/comments/1salgre/gemma_4...) 참고

- Gemma 팀의 일원으로서 이번 메이저 릴리스를 함께한 사람임  
  질문이 있으면 답변 가능함
  - Gemma 3처럼 **양자화 인식 학습(QAT)** 버전을 낼 계획이 있는지 궁금함  
    [관련 블로그](https://developers.googleblog.com/en/gemma-3-quantized-aware...) 참고
  - 이번에 12B 버전이 빠진 이유가 궁금함  
    Qwen3.5 9B와 경쟁할 중간급 모델을 기대했음
  - “메이저 넘버 릴리스”가 실제로 **계산 자원 규모 증가**를 의미하는지, 아니면 새로운 아키텍처 전환을 뜻하는지 궁금함
  - ELO 점수 외의 벤치마크에서 성능이 낮게 나오는 이유가 있는지 질문함  
    혹시 벤치마크 자체가 **비교 왜곡**을 일으키는지 궁금함
  - 개인 테스트에서는 Gemini 3 Pro와 거의 비슷한 성능을 보였고, **비용은 10배 저렴**했음  
    [비교 링크](https://aibenchy.com/compare/google-gemma-4-31b-it-medium/go...)

- Unix timestamp 계산 프롬프트로 Gemma 4와 Qwen 3.5를 비교했음  
  Qwen은 8분 넘게 생각하다 정답을 냈고, Gemma는 30초 만에 잘못된 결과를 냈음  
  Gemma는 **Python 스크립트를 작성했지만 실행하지 못해** 오답을 냈음
  - 모델이 실제로 코드를 실행하려면 **agentic harness** 환경에서 샌드박싱과 명세 제공이 필요함  
    그렇지 않으면 단순 추측만 가능함
  - `date` 명령은 GNU 환경에서는 맞게 동작함  
    macOS에서는 `gdate`를 설치해야 함 (`brew install coreutils`)
  - RX 9070 XT(24GB VRAM) 환경에서 툴 없이 실행해도 올바른 결과를 얻었음  
    [gist 링크](https://gist.github.com/vgalin/a9c852605f39ab503f167c9708a46...)
  - 원 댓글 작성자는 모델에 실제 명령 실행 권한을 주지 않았음  
    모델이 단순히 “상상으로” 실행한 결과였음
  - 마지막 문장이 웃겼음

- **Modular의 MAX nightly**가 Blackwell과 AMD MI355에서 가장 빠른 오픈소스 구현임  
  [Modular 블로그](https://www.modular.com/blog/day-zero-launch-fastest-perform...)에서 pip로 바로 설치 가능함  
  - TensorRT-LLM보다 빠른지, 혹은 TensorRT-LLM을 오픈소스로 보지 않는 이유가 있는지 질문함
  - PyTorch 대비 **속도 향상 비율**이 어느 정도인지 궁금함

- Gemma 4의 ELO 중심 벤치마크는 **오해의 소지**가 있음  
  Qwen 3.5 27B보다 대부분의 지표에서 낮음  
  다만 2B·4B 모델은 **ASR이나 OCR** 용도로 흥미로움
  - 공개 벤치마크는 조작이 쉬움  
    나는 **Lmarena(사람 평가 기반)** 점수를 더 신뢰함
  - 개인 테스트에서는 코딩 제외한 영역에서 꽤 좋은 결과를 보였음  
    [비교 링크](https://aibenchy.com/compare/google-gemma-4-31b-it-medium/go...)
  - 중국 모델들이 **arc-agi 2** 같은 사설 테스트에서 성능이 낮음
  - 벤치마크는 참고용일 뿐, 실제 사용 사례로 직접 테스트하는 게 가장 정확함
  - “ELO Score”가 정확히 어떤 지표를 의미하는지 불분명함

- 드디어 기다리던 릴리스가 나왔음  
  한두 번의 반복만 더 거치면 **셀프호스팅** 환경에서도 대부분의 요구를 충족할 것 같음
  - 나도 동의하지만, 내 “일상적 필요”는 매년 더 복잡해지고 있음  
    예전엔 단순 질의응답이면 됐지만, 이제는 **코딩 에이전트** 수준을 기대하게 됨  
    오픈 모델이 아직 그 수준은 아니지만, 이번 릴리스는 기대됨
  - Gemma3:27b와 Qwen3-vl:30b-a3b는 내가 가장 자주 쓰는 로컬 LLM임  
    번역·분류·카테고리화 작업 대부분을 처리함
  - 어떤 종류의 작업에 셀프호스팅을 활용하는지 궁금함

- 이번 릴리스의 가장 좋은 점은 **Apache 2.0 라이선스**임  
  E2B·E4B(모바일용), 26B-A4B(MoE), 31B(대형 dense) 모델이 있음  
  모바일 버전은 **오디오 입력**을 지원하고, 31B는 에이전트 작업에 강함  
  26B-A4B는 VRAM 효율이 비슷하지만 추론 속도가 훨씬 빠름

- 작은 Rust 프로젝트를 Gemma 4 26B와 Qwen 3.5 27B에 시켜 비교했음  
  Qwen은 1시간 넘게, Gemma는 20분 만에 포기했음  
  Codex가 요약한 결과, Qwen은 **구조적 완성도**가 높고 Gemma는 빠르지만 미완성임  
  나도 그 평가에 동의함
  - 현재 **chat template 버그**로 툴 호출이 불안정함  
    [관련 PR](https://github.com/ggml-org/llama.cpp/pull/21326)과 [이슈](https://github.com/ggml-org/llama.cpp/issues/21316) 참고  
    출시 초기에 판단을 서두르면 안 됨
  - Qwen 3.5 27B는 dense 모델이라 Gemma 4 31B와 비교하는 게 맞음  
    26B-A4B는 Qwen 3.5 35B-A3B와 비교해야 함
  - Qwen은 dense, Gemma는 MoE 구조라 **직접 비교가 어렵음**

### Comment 54549

- Author: eoeoe
- Created: 2026-04-03T11:59:07+09:00
- Points: 1

120b 루머는 아쉽게도 아니었네요
