5P by GN⁺ 6시간전 | ★ favorite | 댓글 2개
  • Google DeepMind가 Gemini 3 기술을 기반으로 한 차세대 오픈 AI 모델 Gemma 4를 발표, 매개변수당 지능 효율을 극대화한 구조로 설계됨
  • 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 실행 범위를 지원
  • 멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처 등 주요 기능을 포함
  • 수학·코딩·멀티모달 이해 영역에서 Gemma 3 대비 성능이 크게 향상되었으며, 보안·신뢰성 기준은 Google 상용 모델과 동일 수준 유지
  • 모델 가중치는 Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 다운로드 가능하며, 로컬 및 클라우드 환경 통합 실행을 지원함

Gemma 4 — 차세대 오픈 AI 모델

  • Gemma 4Gemini 3의 연구와 기술을 기반으로 개발된 Google DeepMind의 최신 오픈 모델로, 매개변수당 지능 효율(intelligence-per-parameter) 을 극대화한 구조를 가짐
  • 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 워크스테이션까지 다양한 환경에서 실행 가능
  • 멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처를 주요 기능으로 포함
  • 성능 벤치마크에서 Gemma 3 대비 전반적인 향상치를 기록하며, 특히 수학·코딩·멀티모달 이해 영역에서 높은 점수를 달성
  • 보안·신뢰성 기준은 Google의 상용 모델과 동일 수준으로 유지되며, Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 모델 가중치를 다운로드 가능

모델 구성 및 효율성

  • Gemma 4는 Gemini 3의 기술 기반으로 설계되어 지능 효율을 극대화한 오픈 모델 구조를 채택
  • 모델 크기는 E2B, E4B, 26B, 31B 네 가지 버전으로 구분되며, 각 버전은 컴퓨팅 자원과 메모리 효율성에 따라 최적화됨
    • E2B·E4B: 모바일 및 IoT 기기용으로, 최대 효율성과 오프라인 실행 지원
    • 26B·31B: 개인용 GPU 환경에서 프론티어급 추론 능력 제공

주요 기능

  • Agentic workflows

    • 함수 호출(function calling) 을 네이티브로 지원해, 사용자를 대신해 계획·앱 탐색·작업 수행이 가능한 자율형 에이전트 구축 가능
  • Multimodal reasoning

    • 오디오와 비주얼 이해 능력을 결합해 풍부한 멀티모달 애플리케이션 개발 지원
  • Support for 140 languages

    • 단순 번역을 넘어 문화적 맥락 이해를 포함한 다국어 경험 생성 가능
  • Fine tuning

    • 사용자가 선호하는 프레임워크와 기법으로 특정 작업 성능 향상을 위한 파인튜닝 가능
  • Efficient architecture

    • 자체 하드웨어에서 실행 가능하며, 효율적인 개발 및 배포 환경 제공

성능

  • Gemma 4는 다양한 텍스트 생성 관련 데이터셋과 지표를 기반으로 평가됨
  • 주요 벤치마크 결과 (Gemma 4 31B IT 기준):
    • Arena AI (text): 1452 (Gemma 3 27B 대비 1365)
    • MMMLU (다국어 Q&A): 85.2%
    • MMMU Pro (멀티모달 추론): 76.9%
    • AIME 2026 (수학): 89.2%
    • LiveCodeBench v6 (코딩 문제): 80.0%
    • GPQA Diamond (과학 지식): 84.3%
    • τ2-bench (에이전트 도구 사용): 86.4%
  • 전반적으로 Gemma 3 대비 모든 항목에서 성능 향상을 보이며, 특히 수학·코딩·멀티모달 이해 영역에서 큰 개선

E2B 및 E4B — 모바일 및 IoT용

  • 오디오·비전 지원을 통해 엣지 디바이스에서 실시간 처리 가능
  • 스마트폰, Raspberry Pi, Jetson Nano 등에서 완전 오프라인 실행거의 제로 지연(latency) 성능 제공
  • Google AI Edge Gallery를 통해 체험 가능

26B 및 31B — 고성능 로컬 AI

  • IDE, 코딩 어시스턴트, 에이전트형 워크플로에 적합한 고급 추론 기능 제공
  • 소비자용 GPU에 최적화되어 학생·연구자·개발자가 로컬 AI 서버 환경을 구축 가능
  • Google AI Studio에서 직접 실행 가능

보안 및 신뢰성

  • Gemma 4는 Google의 상용 모델과 동일한 인프라 보안 프로토콜을 적용
  • 기업 및 공공기관이 사용할 수 있는 투명하고 신뢰할 수 있는 기반 제공
  • 최고 수준의 보안·신뢰성 기준을 충족하면서도 최신 AI 기능을 제공

다운로드 및 실행

  • 모델 가중치 다운로드

    • Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub에서 Gemma 4 모델 가중치 제공
  • 학습 및 배포 지원

    • Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama 등 다양한 플랫폼과 통합 지원
    • 공식 문서 및 API를 통해 훈련·배포·추론 환경 구성 가능

Gemmaverse 커뮤니티

  • Gemmaverse를 통해 전 세계 개발자들이 Gemma를 활용해 구축한 프로젝트를 탐색 가능
  • Google DeepMind의 X, Instagram, YouTube, LinkedIn, GitHub 채널을 통해 최신 업데이트 제공
  • 구독을 통해 최신 AI 혁신 소식 수신 가능
Hacker News 의견들
  • Gemma 4의 reasoning·멀티모달·툴 호출 기능을 통합한 버전을 공개했음
    Hugging Face 컬렉션에서 양자화된 모델을 받을 수 있고, Unsloth 가이드도 함께 제공됨
    추천 파라미터는 temperature=1.0, top_p=0.95, top_k=64, EOS는 "이며, thinking trace는 <|channel>thought\n을 사용함

    • Daniel의 작업이 세상을 바꾸고 있음
      나는 OCR·임베딩·요약 파이프라인을 구축해 1800년대 토지 기록을 검색 가능하게 했음
      GGUF와 llama.cpp 기반으로 다국어 검색이 가능해졌고, 1분 처리 대기 시간은 아무 문제로 느껴지지 않음
    • llama.cpp에서 “thinking”을 끄려 했지만 --reasoning-budget 0이나 --chat-template-kwargs '{"enable_thinking":false}'가 작동하지 않았음
      새 플래그 --reasoning off를 써야 함을 발견했음
      MacBook Air M4(32GB)에서 unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL을 테스트했는데, qwen3.5-35b-a3b보다 훨씬 인상적이었음
    • 가이드의 “Search and download Gemma 4” 단계 스크린샷이 qwen3.5용으로 되어 있고, Unsloth Studio에서는 Gemma 3 모델만 보임
    • 초보 질문이지만, 왜 원본 모델 대신 이 버전을 써야 하는지 궁금함
    • Windows 11에서 Unsloth로 Gemma 4를 설치하다가 비밀번호 설정 단계에서 오류가 발생했음
      PowerShell이 여러 컴포넌트를 설치한 뒤 localhost URL을 열라고 했는데, 그 직후 실패했음
      개발자가 아니라 PowerShell 사용이 낯설어 어려웠고, 단일 실행 파일(.exe) 형태로 배포되면 좋겠음
  • LM Studio에서 Gemma 4 모델들을 테스트했음
    2B·4B 모델은 이상한 펠리컨 이미지를, 26B-A4B 모델은 지금까지 본 중 가장 뛰어난 결과를 냈음
    테스트 결과를 공유함
    31B 모델은 로컬에서는 "---\n"만 출력했지만, AI Studio API에서는 정상 작동했음

    • 펠리컨 벤치마크 덕분에 매번 모델 출시 때마다 Hacker News 댓글을 확인하게 됨
    • 혹시 펠리컨이 이제 학습 데이터 일부가 된 건 아닌지 궁금함
    • 모든 펠리컨 이미지를 한눈에 볼 수 있는 갤러리 페이지가 있으면 좋겠음
      예: clocks.brianmoore.com
    • instruction-tuned 버전을 쓰면 펠리컨 품질이 훨씬 좋아질 것 같음
    • 어떤 노트북 사양에서 실행했는지 궁금함
  • Gemma 4와 Qwen 3.5의 벤치마크를 비교한 표를 정리했음
    MMLU-Pro, GPQA, Codeforces ELO 등 다양한 지표를 포함함

    • ELO 점수가 tfa의 그래프와 크게 다름
      Qwen 3.5-27B와 Gemma 4 26B/31B를 비교했을 때 결과가 뒤바뀐 부분이 있음
      Unsloth 팀이 GGUF를 빠르게 공개한 점은 인상적이며, Qwen 3.5와 동급이라면 매우 고무적임
    • 24GB GPU를 가진 사용자가 이 표에서 어떤 모델을 선택해야 할지 잘 모르겠음
    • 축을 뒤집고 일부 모델을 제거한 비교는 오히려 오해를 부를 수 있음
      작은 Gemma 모델은 Qwen의 소형 모델보다 훨씬 약함
      Qwen3.5-4BGemma 4 관련 Reddit 스레드 참고
  • Gemma 팀의 일원으로서 이번 메이저 릴리스를 함께한 사람임
    질문이 있으면 답변 가능함

    • Gemma 3처럼 양자화 인식 학습(QAT) 버전을 낼 계획이 있는지 궁금함
      관련 블로그 참고
    • 이번에 12B 버전이 빠진 이유가 궁금함
      Qwen3.5 9B와 경쟁할 중간급 모델을 기대했음
    • “메이저 넘버 릴리스”가 실제로 계산 자원 규모 증가를 의미하는지, 아니면 새로운 아키텍처 전환을 뜻하는지 궁금함
    • ELO 점수 외의 벤치마크에서 성능이 낮게 나오는 이유가 있는지 질문함
      혹시 벤치마크 자체가 비교 왜곡을 일으키는지 궁금함
    • 개인 테스트에서는 Gemini 3 Pro와 거의 비슷한 성능을 보였고, 비용은 10배 저렴했음
      비교 링크
  • Unix timestamp 계산 프롬프트로 Gemma 4와 Qwen 3.5를 비교했음
    Qwen은 8분 넘게 생각하다 정답을 냈고, Gemma는 30초 만에 잘못된 결과를 냈음
    Gemma는 Python 스크립트를 작성했지만 실행하지 못해 오답을 냈음

    • 모델이 실제로 코드를 실행하려면 agentic harness 환경에서 샌드박싱과 명세 제공이 필요함
      그렇지 않으면 단순 추측만 가능함
    • date 명령은 GNU 환경에서는 맞게 동작함
      macOS에서는 gdate를 설치해야 함 (brew install coreutils)
    • RX 9070 XT(24GB VRAM) 환경에서 툴 없이 실행해도 올바른 결과를 얻었음
      gist 링크
    • 원 댓글 작성자는 모델에 실제 명령 실행 권한을 주지 않았음
      모델이 단순히 “상상으로” 실행한 결과였음
    • 마지막 문장이 웃겼음
  • Modular의 MAX nightly가 Blackwell과 AMD MI355에서 가장 빠른 오픈소스 구현임
    Modular 블로그에서 pip로 바로 설치 가능함

    • TensorRT-LLM보다 빠른지, 혹은 TensorRT-LLM을 오픈소스로 보지 않는 이유가 있는지 질문함
    • PyTorch 대비 속도 향상 비율이 어느 정도인지 궁금함
  • Gemma 4의 ELO 중심 벤치마크는 오해의 소지가 있음
    Qwen 3.5 27B보다 대부분의 지표에서 낮음
    다만 2B·4B 모델은 ASR이나 OCR 용도로 흥미로움

    • 공개 벤치마크는 조작이 쉬움
      나는 Lmarena(사람 평가 기반) 점수를 더 신뢰함
    • 개인 테스트에서는 코딩 제외한 영역에서 꽤 좋은 결과를 보였음
      비교 링크
    • 중국 모델들이 arc-agi 2 같은 사설 테스트에서 성능이 낮음
    • 벤치마크는 참고용일 뿐, 실제 사용 사례로 직접 테스트하는 게 가장 정확함
    • “ELO Score”가 정확히 어떤 지표를 의미하는지 불분명함
  • 드디어 기다리던 릴리스가 나왔음
    한두 번의 반복만 더 거치면 셀프호스팅 환경에서도 대부분의 요구를 충족할 것 같음

    • 나도 동의하지만, 내 “일상적 필요”는 매년 더 복잡해지고 있음
      예전엔 단순 질의응답이면 됐지만, 이제는 코딩 에이전트 수준을 기대하게 됨
      오픈 모델이 아직 그 수준은 아니지만, 이번 릴리스는 기대됨
    • Gemma3:27b와 Qwen3-vl:30b-a3b는 내가 가장 자주 쓰는 로컬 LLM임
      번역·분류·카테고리화 작업 대부분을 처리함
    • 어떤 종류의 작업에 셀프호스팅을 활용하는지 궁금함
  • 이번 릴리스의 가장 좋은 점은 Apache 2.0 라이선스
    E2B·E4B(모바일용), 26B-A4B(MoE), 31B(대형 dense) 모델이 있음
    모바일 버전은 오디오 입력을 지원하고, 31B는 에이전트 작업에 강함
    26B-A4B는 VRAM 효율이 비슷하지만 추론 속도가 훨씬 빠름

  • 작은 Rust 프로젝트를 Gemma 4 26B와 Qwen 3.5 27B에 시켜 비교했음
    Qwen은 1시간 넘게, Gemma는 20분 만에 포기했음
    Codex가 요약한 결과, Qwen은 구조적 완성도가 높고 Gemma는 빠르지만 미완성임
    나도 그 평가에 동의함

    • 현재 chat template 버그로 툴 호출이 불안정함
      관련 PR이슈 참고
      출시 초기에 판단을 서두르면 안 됨
    • Qwen 3.5 27B는 dense 모델이라 Gemma 4 31B와 비교하는 게 맞음
      26B-A4B는 Qwen 3.5 35B-A3B와 비교해야 함
    • Qwen은 dense, Gemma는 MoE 구조라 직접 비교가 어렵음

120b 루머는 아쉽게도 아니었네요