Google, 오픈 모델 Gemma 4 공개
(deepmind.google)- Google DeepMind가 Gemini 3 기술을 기반으로 한 차세대 오픈 AI 모델 Gemma 4를 발표, 매개변수당 지능 효율을 극대화한 구조로 설계됨
- 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 실행 범위를 지원
- 멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처 등 주요 기능을 포함
- 수학·코딩·멀티모달 이해 영역에서 Gemma 3 대비 성능이 크게 향상되었으며, 보안·신뢰성 기준은 Google 상용 모델과 동일 수준 유지
- 모델 가중치는 Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 다운로드 가능하며, 로컬 및 클라우드 환경 통합 실행을 지원함
Gemma 4 — 차세대 오픈 AI 모델
- Gemma 4는 Gemini 3의 연구와 기술을 기반으로 개발된 Google DeepMind의 최신 오픈 모델로, 매개변수당 지능 효율(intelligence-per-parameter) 을 극대화한 구조를 가짐
- 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 워크스테이션까지 다양한 환경에서 실행 가능
- 멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처를 주요 기능으로 포함
- 성능 벤치마크에서 Gemma 3 대비 전반적인 향상치를 기록하며, 특히 수학·코딩·멀티모달 이해 영역에서 높은 점수를 달성
- 보안·신뢰성 기준은 Google의 상용 모델과 동일 수준으로 유지되며, Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 모델 가중치를 다운로드 가능
모델 구성 및 효율성
- Gemma 4는 Gemini 3의 기술 기반으로 설계되어 지능 효율을 극대화한 오픈 모델 구조를 채택
- 모델 크기는 E2B, E4B, 26B, 31B 네 가지 버전으로 구분되며, 각 버전은 컴퓨팅 자원과 메모리 효율성에 따라 최적화됨
- E2B·E4B: 모바일 및 IoT 기기용으로, 최대 효율성과 오프라인 실행 지원
- 26B·31B: 개인용 GPU 환경에서 프론티어급 추론 능력 제공
주요 기능
-
Agentic workflows
- 함수 호출(function calling) 을 네이티브로 지원해, 사용자를 대신해 계획·앱 탐색·작업 수행이 가능한 자율형 에이전트 구축 가능
-
Multimodal reasoning
- 오디오와 비주얼 이해 능력을 결합해 풍부한 멀티모달 애플리케이션 개발 지원
-
Support for 140 languages
- 단순 번역을 넘어 문화적 맥락 이해를 포함한 다국어 경험 생성 가능
-
Fine tuning
- 사용자가 선호하는 프레임워크와 기법으로 특정 작업 성능 향상을 위한 파인튜닝 가능
-
Efficient architecture
- 자체 하드웨어에서 실행 가능하며, 효율적인 개발 및 배포 환경 제공
성능
- Gemma 4는 다양한 텍스트 생성 관련 데이터셋과 지표를 기반으로 평가됨
- 주요 벤치마크 결과 (Gemma 4 31B IT 기준):
- Arena AI (text): 1452 (Gemma 3 27B 대비 1365)
- MMMLU (다국어 Q&A): 85.2%
- MMMU Pro (멀티모달 추론): 76.9%
- AIME 2026 (수학): 89.2%
- LiveCodeBench v6 (코딩 문제): 80.0%
- GPQA Diamond (과학 지식): 84.3%
- τ2-bench (에이전트 도구 사용): 86.4%
- 전반적으로 Gemma 3 대비 모든 항목에서 성능 향상을 보이며, 특히 수학·코딩·멀티모달 이해 영역에서 큰 개선
E2B 및 E4B — 모바일 및 IoT용
- 오디오·비전 지원을 통해 엣지 디바이스에서 실시간 처리 가능
- 스마트폰, Raspberry Pi, Jetson Nano 등에서 완전 오프라인 실행 및 거의 제로 지연(latency) 성능 제공
- Google AI Edge Gallery를 통해 체험 가능
26B 및 31B — 고성능 로컬 AI
- IDE, 코딩 어시스턴트, 에이전트형 워크플로에 적합한 고급 추론 기능 제공
- 소비자용 GPU에 최적화되어 학생·연구자·개발자가 로컬 AI 서버 환경을 구축 가능
- Google AI Studio에서 직접 실행 가능
보안 및 신뢰성
- Gemma 4는 Google의 상용 모델과 동일한 인프라 보안 프로토콜을 적용
- 기업 및 공공기관이 사용할 수 있는 투명하고 신뢰할 수 있는 기반 제공
- 최고 수준의 보안·신뢰성 기준을 충족하면서도 최신 AI 기능을 제공
다운로드 및 실행
-
모델 가중치 다운로드
- Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub에서 Gemma 4 모델 가중치 제공
-
학습 및 배포 지원
- Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama 등 다양한 플랫폼과 통합 지원
- 공식 문서 및 API를 통해 훈련·배포·추론 환경 구성 가능
Gemmaverse 커뮤니티
- Gemmaverse를 통해 전 세계 개발자들이 Gemma를 활용해 구축한 프로젝트를 탐색 가능
- Google DeepMind의 X, Instagram, YouTube, LinkedIn, GitHub 채널을 통해 최신 업데이트 제공
- 구독을 통해 최신 AI 혁신 소식 수신 가능
Hacker News 의견들
-
Gemma 4의 reasoning·멀티모달·툴 호출 기능을 통합한 버전을 공개했음
Hugging Face 컬렉션에서 양자화된 모델을 받을 수 있고, Unsloth 가이드도 함께 제공됨
추천 파라미터는 temperature=1.0, top_p=0.95, top_k=64, EOS는"이며, thinking trace는<|channel>thought\n을 사용함- Daniel의 작업이 세상을 바꾸고 있음
나는 OCR·임베딩·요약 파이프라인을 구축해 1800년대 토지 기록을 검색 가능하게 했음
GGUF와 llama.cpp 기반으로 다국어 검색이 가능해졌고, 1분 처리 대기 시간은 아무 문제로 느껴지지 않음 - llama.cpp에서 “thinking”을 끄려 했지만
--reasoning-budget 0이나--chat-template-kwargs '{"enable_thinking":false}'가 작동하지 않았음
새 플래그--reasoning off를 써야 함을 발견했음
MacBook Air M4(32GB)에서 unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL을 테스트했는데, qwen3.5-35b-a3b보다 훨씬 인상적이었음 - 가이드의 “Search and download Gemma 4” 단계 스크린샷이 qwen3.5용으로 되어 있고, Unsloth Studio에서는 Gemma 3 모델만 보임
- 초보 질문이지만, 왜 원본 모델 대신 이 버전을 써야 하는지 궁금함
- Windows 11에서 Unsloth로 Gemma 4를 설치하다가 비밀번호 설정 단계에서 오류가 발생했음
PowerShell이 여러 컴포넌트를 설치한 뒤localhostURL을 열라고 했는데, 그 직후 실패했음
개발자가 아니라 PowerShell 사용이 낯설어 어려웠고, 단일 실행 파일(.exe) 형태로 배포되면 좋겠음
- Daniel의 작업이 세상을 바꾸고 있음
-
LM Studio에서 Gemma 4 모델들을 테스트했음
2B·4B 모델은 이상한 펠리컨 이미지를, 26B-A4B 모델은 지금까지 본 중 가장 뛰어난 결과를 냈음
테스트 결과를 공유함
31B 모델은 로컬에서는 "---\n"만 출력했지만, AI Studio API에서는 정상 작동했음- 펠리컨 벤치마크 덕분에 매번 모델 출시 때마다 Hacker News 댓글을 확인하게 됨
- 혹시 펠리컨이 이제 학습 데이터 일부가 된 건 아닌지 궁금함
- 모든 펠리컨 이미지를 한눈에 볼 수 있는 갤러리 페이지가 있으면 좋겠음
예: clocks.brianmoore.com - instruction-tuned 버전을 쓰면 펠리컨 품질이 훨씬 좋아질 것 같음
- 어떤 노트북 사양에서 실행했는지 궁금함
-
Gemma 4와 Qwen 3.5의 벤치마크를 비교한 표를 정리했음
MMLU-Pro, GPQA, Codeforces ELO 등 다양한 지표를 포함함- ELO 점수가 tfa의 그래프와 크게 다름
Qwen 3.5-27B와 Gemma 4 26B/31B를 비교했을 때 결과가 뒤바뀐 부분이 있음
Unsloth 팀이 GGUF를 빠르게 공개한 점은 인상적이며, Qwen 3.5와 동급이라면 매우 고무적임 - 24GB GPU를 가진 사용자가 이 표에서 어떤 모델을 선택해야 할지 잘 모르겠음
- 축을 뒤집고 일부 모델을 제거한 비교는 오히려 오해를 부를 수 있음
작은 Gemma 모델은 Qwen의 소형 모델보다 훨씬 약함
Qwen3.5-4B와 Gemma 4 관련 Reddit 스레드 참고
- ELO 점수가 tfa의 그래프와 크게 다름
-
Gemma 팀의 일원으로서 이번 메이저 릴리스를 함께한 사람임
질문이 있으면 답변 가능함 -
Unix timestamp 계산 프롬프트로 Gemma 4와 Qwen 3.5를 비교했음
Qwen은 8분 넘게 생각하다 정답을 냈고, Gemma는 30초 만에 잘못된 결과를 냈음
Gemma는 Python 스크립트를 작성했지만 실행하지 못해 오답을 냈음- 모델이 실제로 코드를 실행하려면 agentic harness 환경에서 샌드박싱과 명세 제공이 필요함
그렇지 않으면 단순 추측만 가능함 -
date명령은 GNU 환경에서는 맞게 동작함
macOS에서는gdate를 설치해야 함 (brew install coreutils) - RX 9070 XT(24GB VRAM) 환경에서 툴 없이 실행해도 올바른 결과를 얻었음
gist 링크 - 원 댓글 작성자는 모델에 실제 명령 실행 권한을 주지 않았음
모델이 단순히 “상상으로” 실행한 결과였음 - 마지막 문장이 웃겼음
- 모델이 실제로 코드를 실행하려면 agentic harness 환경에서 샌드박싱과 명세 제공이 필요함
-
Modular의 MAX nightly가 Blackwell과 AMD MI355에서 가장 빠른 오픈소스 구현임
Modular 블로그에서 pip로 바로 설치 가능함- TensorRT-LLM보다 빠른지, 혹은 TensorRT-LLM을 오픈소스로 보지 않는 이유가 있는지 질문함
- PyTorch 대비 속도 향상 비율이 어느 정도인지 궁금함
-
Gemma 4의 ELO 중심 벤치마크는 오해의 소지가 있음
Qwen 3.5 27B보다 대부분의 지표에서 낮음
다만 2B·4B 모델은 ASR이나 OCR 용도로 흥미로움- 공개 벤치마크는 조작이 쉬움
나는 Lmarena(사람 평가 기반) 점수를 더 신뢰함 - 개인 테스트에서는 코딩 제외한 영역에서 꽤 좋은 결과를 보였음
비교 링크 - 중국 모델들이 arc-agi 2 같은 사설 테스트에서 성능이 낮음
- 벤치마크는 참고용일 뿐, 실제 사용 사례로 직접 테스트하는 게 가장 정확함
- “ELO Score”가 정확히 어떤 지표를 의미하는지 불분명함
- 공개 벤치마크는 조작이 쉬움
-
드디어 기다리던 릴리스가 나왔음
한두 번의 반복만 더 거치면 셀프호스팅 환경에서도 대부분의 요구를 충족할 것 같음- 나도 동의하지만, 내 “일상적 필요”는 매년 더 복잡해지고 있음
예전엔 단순 질의응답이면 됐지만, 이제는 코딩 에이전트 수준을 기대하게 됨
오픈 모델이 아직 그 수준은 아니지만, 이번 릴리스는 기대됨 - Gemma3:27b와 Qwen3-vl:30b-a3b는 내가 가장 자주 쓰는 로컬 LLM임
번역·분류·카테고리화 작업 대부분을 처리함 - 어떤 종류의 작업에 셀프호스팅을 활용하는지 궁금함
- 나도 동의하지만, 내 “일상적 필요”는 매년 더 복잡해지고 있음
-
이번 릴리스의 가장 좋은 점은 Apache 2.0 라이선스임
E2B·E4B(모바일용), 26B-A4B(MoE), 31B(대형 dense) 모델이 있음
모바일 버전은 오디오 입력을 지원하고, 31B는 에이전트 작업에 강함
26B-A4B는 VRAM 효율이 비슷하지만 추론 속도가 훨씬 빠름 -
작은 Rust 프로젝트를 Gemma 4 26B와 Qwen 3.5 27B에 시켜 비교했음
Qwen은 1시간 넘게, Gemma는 20분 만에 포기했음
Codex가 요약한 결과, Qwen은 구조적 완성도가 높고 Gemma는 빠르지만 미완성임
나도 그 평가에 동의함