Google, 오픈 모델 Gemma 4 공개

(deepmind.google)

10P by GN⁺ 1달전 | ★ favorite | 댓글 2개

Google DeepMind가 Gemini 3 기술을 기반으로 한 차세대 오픈 AI 모델 Gemma 4를 발표, 매개변수당 지능 효율을 극대화한 구조로 설계됨
모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 실행 범위를 지원
멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처 등 주요 기능을 포함
수학·코딩·멀티모달 이해 영역에서 Gemma 3 대비 성능이 크게 향상되었으며, 보안·신뢰성 기준은 Google 상용 모델과 동일 수준 유지
모델 가중치는 Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 다운로드 가능하며, 로컬 및 클라우드 환경 통합 실행을 지원함

Gemma 4 — 차세대 오픈 AI 모델

Gemma 4는 Gemini 3의 연구와 기술을 기반으로 개발된 Google DeepMind의 최신 오픈 모델로, 매개변수당 지능 효율(intelligence-per-parameter) 을 극대화한 구조를 가짐
모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 워크스테이션까지 다양한 환경에서 실행 가능
멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처를 주요 기능으로 포함
성능 벤치마크에서 Gemma 3 대비 전반적인 향상치를 기록하며, 특히 수학·코딩·멀티모달 이해 영역에서 높은 점수를 달성
보안·신뢰성 기준은 Google의 상용 모델과 동일 수준으로 유지되며, Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 모델 가중치를 다운로드 가능

모델 구성 및 효율성

Gemma 4는 Gemini 3의 기술 기반으로 설계되어 지능 효율을 극대화한 오픈 모델 구조를 채택
모델 크기는 E2B, E4B, 26B, 31B 네 가지 버전으로 구분되며, 각 버전은 컴퓨팅 자원과 메모리 효율성에 따라 최적화됨
- E2B·E4B: 모바일 및 IoT 기기용으로, 최대 효율성과 오프라인 실행 지원
- 26B·31B: 개인용 GPU 환경에서 프론티어급 추론 능력 제공

주요 기능

Agentic workflows
- 함수 호출(function calling) 을 네이티브로 지원해, 사용자를 대신해 계획·앱 탐색·작업 수행이 가능한 자율형 에이전트 구축 가능
Multimodal reasoning
- 오디오와 비주얼 이해 능력을 결합해 풍부한 멀티모달 애플리케이션 개발 지원
Support for 140 languages
- 단순 번역을 넘어 문화적 맥락 이해를 포함한 다국어 경험 생성 가능
Fine tuning
- 사용자가 선호하는 프레임워크와 기법으로 특정 작업 성능 향상을 위한 파인튜닝 가능
Efficient architecture
- 자체 하드웨어에서 실행 가능하며, 효율적인 개발 및 배포 환경 제공

성능

Gemma 4는 다양한 텍스트 생성 관련 데이터셋과 지표를 기반으로 평가됨
주요 벤치마크 결과 (Gemma 4 31B IT 기준):
- Arena AI (text): 1452 (Gemma 3 27B 대비 1365)
- MMMLU (다국어 Q&A): 85.2%
- MMMU Pro (멀티모달 추론): 76.9%
- AIME 2026 (수학): 89.2%
- LiveCodeBench v6 (코딩 문제): 80.0%
- GPQA Diamond (과학 지식): 84.3%
- τ2-bench (에이전트 도구 사용): 86.4%
전반적으로 Gemma 3 대비 모든 항목에서 성능 향상을 보이며, 특히 수학·코딩·멀티모달 이해 영역에서 큰 개선

E2B 및 E4B — 모바일 및 IoT용

오디오·비전 지원을 통해 엣지 디바이스에서 실시간 처리 가능
스마트폰, Raspberry Pi, Jetson Nano 등에서 완전 오프라인 실행 및 거의 제로 지연(latency) 성능 제공
Google AI Edge Gallery를 통해 체험 가능

26B 및 31B — 고성능 로컬 AI

IDE, 코딩 어시스턴트, 에이전트형 워크플로에 적합한 고급 추론 기능 제공
소비자용 GPU에 최적화되어 학생·연구자·개발자가 로컬 AI 서버 환경을 구축 가능
Google AI Studio에서 직접 실행 가능

보안 및 신뢰성

Gemma 4는 Google의 상용 모델과 동일한 인프라 보안 프로토콜을 적용
기업 및 공공기관이 사용할 수 있는 투명하고 신뢰할 수 있는 기반 제공
최고 수준의 보안·신뢰성 기준을 충족하면서도 최신 AI 기능을 제공

다운로드 및 실행

모델 가중치 다운로드
- Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub에서 Gemma 4 모델 가중치 제공
학습 및 배포 지원
- Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama 등 다양한 플랫폼과 통합 지원
- 공식 문서 및 API를 통해 훈련·배포·추론 환경 구성 가능

Gemmaverse 커뮤니티

Gemmaverse를 통해 전 세계 개발자들이 Gemma를 활용해 구축한 프로젝트를 탐색 가능
Google DeepMind의 X, Instagram, YouTube, LinkedIn, GitHub 채널을 통해 최신 업데이트 제공
구독을 통해 최신 AI 혁신 소식 수신 가능

▲

GN⁺ 1달전 [-]

Hacker News 의견들

Gemma 4의 reasoning·멀티모달·툴 호출 기능을 통합한 버전을 공개했음
Hugging Face 컬렉션에서 양자화된 모델을 받을 수 있고, Unsloth 가이드도 함께 제공됨
추천 파라미터는 temperature=1.0, top_p=0.95, top_k=64, EOS는 "이며, thinking trace는 <|channel>thought\n을 사용함
- Daniel의 작업이 세상을 바꾸고 있음
  나는 OCR·임베딩·요약 파이프라인을 구축해 1800년대 토지 기록을 검색 가능하게 했음
  GGUF와 llama.cpp 기반으로 다국어 검색이 가능해졌고, 1분 처리 대기 시간은 아무 문제로 느껴지지 않음
- llama.cpp에서 “thinking”을 끄려 했지만 --reasoning-budget 0이나 --chat-template-kwargs '{"enable_thinking":false}'가 작동하지 않았음
  새 플래그 --reasoning off를 써야 함을 발견했음
  MacBook Air M4(32GB)에서 unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL을 테스트했는데, qwen3.5-35b-a3b보다 훨씬 인상적이었음
- 가이드의 “Search and download Gemma 4” 단계 스크린샷이 qwen3.5용으로 되어 있고, Unsloth Studio에서는 Gemma 3 모델만 보임
- 초보 질문이지만, 왜 원본 모델 대신 이 버전을 써야 하는지 궁금함
- Windows 11에서 Unsloth로 Gemma 4를 설치하다가 비밀번호 설정 단계에서 오류가 발생했음
  PowerShell이 여러 컴포넌트를 설치한 뒤 localhost URL을 열라고 했는데, 그 직후 실패했음
  개발자가 아니라 PowerShell 사용이 낯설어 어려웠고, 단일 실행 파일(.exe) 형태로 배포되면 좋겠음
LM Studio에서 Gemma 4 모델들을 테스트했음
2B·4B 모델은 이상한 펠리컨 이미지를, 26B-A4B 모델은 지금까지 본 중 가장 뛰어난 결과를 냈음
테스트 결과를 공유함
31B 모델은 로컬에서는 "---\n"만 출력했지만, AI Studio API에서는 정상 작동했음
- 펠리컨 벤치마크 덕분에 매번 모델 출시 때마다 Hacker News 댓글을 확인하게 됨
- 혹시 펠리컨이 이제 학습 데이터 일부가 된 건 아닌지 궁금함
- 모든 펠리컨 이미지를 한눈에 볼 수 있는 갤러리 페이지가 있으면 좋겠음
  예: clocks.brianmoore.com
- instruction-tuned 버전을 쓰면 펠리컨 품질이 훨씬 좋아질 것 같음
- 어떤 노트북 사양에서 실행했는지 궁금함
Gemma 4와 Qwen 3.5의 벤치마크를 비교한 표를 정리했음
MMLU-Pro, GPQA, Codeforces ELO 등 다양한 지표를 포함함
- ELO 점수가 tfa의 그래프와 크게 다름
  Qwen 3.5-27B와 Gemma 4 26B/31B를 비교했을 때 결과가 뒤바뀐 부분이 있음
  Unsloth 팀이 GGUF를 빠르게 공개한 점은 인상적이며, Qwen 3.5와 동급이라면 매우 고무적임
- 24GB GPU를 가진 사용자가 이 표에서 어떤 모델을 선택해야 할지 잘 모르겠음
- 축을 뒤집고 일부 모델을 제거한 비교는 오히려 오해를 부를 수 있음
  작은 Gemma 모델은 Qwen의 소형 모델보다 훨씬 약함
  Qwen3.5-4B와 Gemma 4 관련 Reddit 스레드 참고
Gemma 팀의 일원으로서 이번 메이저 릴리스를 함께한 사람임
질문이 있으면 답변 가능함
- Gemma 3처럼 양자화 인식 학습(QAT) 버전을 낼 계획이 있는지 궁금함
  관련 블로그 참고
- 이번에 12B 버전이 빠진 이유가 궁금함
  Qwen3.5 9B와 경쟁할 중간급 모델을 기대했음
- “메이저 넘버 릴리스”가 실제로 계산 자원 규모 증가를 의미하는지, 아니면 새로운 아키텍처 전환을 뜻하는지 궁금함
- ELO 점수 외의 벤치마크에서 성능이 낮게 나오는 이유가 있는지 질문함
  혹시 벤치마크 자체가 비교 왜곡을 일으키는지 궁금함
- 개인 테스트에서는 Gemini 3 Pro와 거의 비슷한 성능을 보였고, 비용은 10배 저렴했음
  비교 링크
Unix timestamp 계산 프롬프트로 Gemma 4와 Qwen 3.5를 비교했음
Qwen은 8분 넘게 생각하다 정답을 냈고, Gemma는 30초 만에 잘못된 결과를 냈음
Gemma는 Python 스크립트를 작성했지만 실행하지 못해 오답을 냈음
- 모델이 실제로 코드를 실행하려면 agentic harness 환경에서 샌드박싱과 명세 제공이 필요함
  그렇지 않으면 단순 추측만 가능함
- date 명령은 GNU 환경에서는 맞게 동작함
  macOS에서는 gdate를 설치해야 함 (brew install coreutils)
- RX 9070 XT(24GB VRAM) 환경에서 툴 없이 실행해도 올바른 결과를 얻었음
  gist 링크
- 원 댓글 작성자는 모델에 실제 명령 실행 권한을 주지 않았음
  모델이 단순히 “상상으로” 실행한 결과였음
- 마지막 문장이 웃겼음
Modular의 MAX nightly가 Blackwell과 AMD MI355에서 가장 빠른 오픈소스 구현임
Modular 블로그에서 pip로 바로 설치 가능함
- TensorRT-LLM보다 빠른지, 혹은 TensorRT-LLM을 오픈소스로 보지 않는 이유가 있는지 질문함
- PyTorch 대비 속도 향상 비율이 어느 정도인지 궁금함
Gemma 4의 ELO 중심 벤치마크는 오해의 소지가 있음
Qwen 3.5 27B보다 대부분의 지표에서 낮음
다만 2B·4B 모델은 ASR이나 OCR 용도로 흥미로움
- 공개 벤치마크는 조작이 쉬움
  나는 Lmarena(사람 평가 기반) 점수를 더 신뢰함
- 개인 테스트에서는 코딩 제외한 영역에서 꽤 좋은 결과를 보였음
  비교 링크
- 중국 모델들이 arc-agi 2 같은 사설 테스트에서 성능이 낮음
- 벤치마크는 참고용일 뿐, 실제 사용 사례로 직접 테스트하는 게 가장 정확함
- “ELO Score”가 정확히 어떤 지표를 의미하는지 불분명함
드디어 기다리던 릴리스가 나왔음
한두 번의 반복만 더 거치면 셀프호스팅 환경에서도 대부분의 요구를 충족할 것 같음
- 나도 동의하지만, 내 “일상적 필요”는 매년 더 복잡해지고 있음
  예전엔 단순 질의응답이면 됐지만, 이제는 코딩 에이전트 수준을 기대하게 됨
  오픈 모델이 아직 그 수준은 아니지만, 이번 릴리스는 기대됨
- Gemma3:27b와 Qwen3-vl:30b-a3b는 내가 가장 자주 쓰는 로컬 LLM임
  번역·분류·카테고리화 작업 대부분을 처리함
- 어떤 종류의 작업에 셀프호스팅을 활용하는지 궁금함
이번 릴리스의 가장 좋은 점은 Apache 2.0 라이선스임
E2B·E4B(모바일용), 26B-A4B(MoE), 31B(대형 dense) 모델이 있음
모바일 버전은 오디오 입력을 지원하고, 31B는 에이전트 작업에 강함
26B-A4B는 VRAM 효율이 비슷하지만 추론 속도가 훨씬 빠름
작은 Rust 프로젝트를 Gemma 4 26B와 Qwen 3.5 27B에 시켜 비교했음
Qwen은 1시간 넘게, Gemma는 20분 만에 포기했음
Codex가 요약한 결과, Qwen은 구조적 완성도가 높고 Gemma는 빠르지만 미완성임
나도 그 평가에 동의함
- 현재 chat template 버그로 툴 호출이 불안정함
  관련 PR과 이슈 참고
  출시 초기에 판단을 서두르면 안 됨
- Qwen 3.5 27B는 dense 모델이라 Gemma 4 31B와 비교하는 게 맞음
  26B-A4B는 Qwen 3.5 35B-A3B와 비교해야 함
- Qwen은 dense, Gemma는 MoE 구조라 직접 비교가 어렵음

답변달기

▲

eoeoe 1달전 [-]

120b 루머는 아쉽게도 아니었네요

답변달기

Google, 오픈 모델 Gemma 4 공개

Gemma 4 — 차세대 오픈 AI 모델

모델 구성 및 효율성

주요 기능

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

성능

E2B 및 E4B — 모바일 및 IoT용

26B 및 31B — 고성능 로컬 AI

보안 및 신뢰성

다운로드 및 실행

모델 가중치 다운로드

학습 및 배포 지원

Gemmaverse 커뮤니티

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들