1P by GN⁺ | ★ favorite | 댓글 1개
  • Gemma 4 양자화 인식 학습(QAT) 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 로컬 실행을 돕도록 메모리 요구량과 온디바이스 성능을 최적화함
  • QAT는 학습 중 양자화를 시뮬레이션해 압축 시 품질 손실을 줄이며, 표준 PTQ 기준선보다 전반적 품질이 더 높은 결과를 냄
  • 공개된 체크포인트는 Q4_0 형식과 모바일 특화 형식을 대상으로 하며, 모바일 형식은 Gemma 4 E2B의 메모리 풋프린트를 1GB로 낮춤
  • 모바일 스키마는 정적 활성화, 채널별 양자화, 선택적 2비트 양자화, 임베딩·KV 캐시 최적화로 모바일 칩의 작업량과 활성 메모리 사용을 줄임
  • Hugging Face 가중치, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth 지원으로 로컬 실행과 온디바이스 배포, 파인튜닝을 수행할 수 있음

공개 배경과 범위

  • Gemma 4 출시 두 달 뒤, Google은 추론 가속용 Multi-Token Prediction(MTP)과 E4B·26B MOE 모델 사이를 메우는 12B 모델에 이어 QAT 체크포인트를 공개함
  • 새 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 Gemma 4를 로컬로 실행할 수 있게 하려는 효율화 작업임
  • QAT는 학습 중 양자화를 시뮬레이션해 모델 압축 시 품질 손실을 최소화하는 방식임
  • 이번 릴리스는 인기 있는 Q4_0 양자화 형식용 QAT 체크포인트와 모바일 사용 사례에 특화된 새 양자화 형식을 제공함

압축과 품질 절충

  • 양자화는 소비자 하드웨어에서 모델을 실행하기 위한 핵심 기술이며, 메모리 풋프린트를 줄이고 디코드 속도를 높임
  • 표준 학습 후 양자화(PTQ)는 종종 성능 저하를 낳지만, QAT는 양자화 과정을 학습에 직접 통합함
  • PTQ도 품질 보존에 효과적이지만, QAT 결과는 표준 PTQ 기준선보다 더 높은 전반적 품질을 냄
  • Google은 모든 모델 성능 극대화를 위해 Q4_0 형식에 QAT 레시피를 적용했고, E2B·E4B 에지 모델에는 모바일 특화 양자화 스키마를 따로 설계함

모바일 최적화 구조

  • 표준 압축 형식은 모바일 프로세서에서 효율적으로 실행하기 어려운 경우가 많아, Gemma 4는 에지 하드웨어용 맞춤형 모바일 양자화 스키마를 사용함
  • 정적 활성화는 데이터 스케일 설정을 학습 중 미리 계산해 모바일 칩의 작업량을 줄이고 응답 속도를 높임
  • 채널별 양자화는 압축 데이터를 모바일 가속기 구조에 맞춰 구성해 느린 우회 방식 없이 네이티브 계산을 가능하게 함
  • 선택적 2비트 양자화는 토큰 생성 부분을 2비트로 강하게 압축하고 핵심 추론 레이어는 더 높은 정밀도로 유지해 저장 공간을 절약함
  • 임베딩 및 KV 캐시 최적화는 모델의 어휘 목록과 단기 메모리에 압축을 집중해 활성 메모리 풋프린트를 크게 줄이고 긴 대화를 가능하게 함
  • 오디오·비전 인코더가 필요 없는 사용 사례에서는 필요한 모달리티만 배포해 메모리 풋프린트를 더 줄일 수 있으며, Per-Layer Embeddings 없는 Gemma 4 E2B 텍스트 전용 모델은 1GB 미만의 메모리를 요구함

사용 방법과 도구 지원

  • Google은 Q4_0mobile 모델 가중치를 Hugging Face에서 제공함
  • GGUF 형식은 llama.cpp에서 바로 사용할 수 있고, 압축 텐서는 vLLM용으로 제공되며, 그 외 워크플로에는 Q4_0 지원 형식으로 변환·양자화할 수 있는 비양자화 체크포인트를 공유함
  • 배포 방법은 문서에서 확인할 수 있음
  • 데스크톱에서는 llama.cpp, Ollama, LM Studio로 Gemma 4 QAT 모델을 로컬에서 다운로드·관리·실행할 수 있음
  • 온디바이스 배포에는 Google의 경량 LiteRT-LM 런타임을 사용할 수 있고, 웹에서는 Transformers.js로 직접 실행할 수 있음
  • 대형 모델 서빙에는 SGLangvLLM을 사용할 수 있고, Apple Silicon 최적화에는 MLX을 사용할 수 있음
  • MTP QAT 체크포인트는 모델을 양자화하면서 MTP의 속도 향상을 보존하며, Hugging Face Transformers와 Unsloth로 가중치를 직접 파인튜닝할 수 있음

댓글과 토론

Hacker News 의견들
  • Mac에서 uvx litert-lm run으로 Gemma 4 E2B를 로컬 실행해 봤고, 첫 실행 때 ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm3.2GB를 내려받음
    이 크기 모델이 오디오와 이미지 입력도 처리하는 게 꽤 인상적이고, 이미지에는 --attachment image.jpg --prompt describe, 오디오에는 --attachment audio.wav --prompt transcribe처럼 실행 가능함
    펠리컨 SVG 결과물 자체는 별로였지만, 3.2GB 파일이 유효한 SVG를 내놓는다는 점은 놀라웠음: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

    • 이게 실제로 양자화 인식 학습(QAT) 인지 헷갈림
      MLX Community 모델들은 이름에 그렇게 들어가 있는데, 여기 모델들은 그렇지 않고 업로드 날짜도 완전히 맞아 보이지 않음
    • 텍스트 전용 0.8GB 버전도 있다는 게 놀라움
      이제 기기 안에서 영상과 오디오를 인식하는 기본적인 실시간 대화가 가능해짐
    • 별개로 uvx는 쓰기 정말 편함
      Nvidia도 사람들이 Docker 우회 절차를 밟게 하지 말고 1급으로 지원해줬으면 좋겠음
  • Unsloth 컬렉션도 있고 [0], 결과도 공개되어 있음 [1]
    양자화하지 않은 BF16 모델 대비 거의 100% 정확도에 가까워 보이고, 글에 나온 Google의 원래 QAT보다 Unsloth 양자화가 더 좋아 보임
    개인적으로는 휴대폰에 모델을 내장한 상태에서도 Unsloth Studio와 API로 2B 모델을 웹 검색과 구조화된 JSON 출력에 쓰고 있는데, 이 용도에는 아주 잘 맞음
    [0] https://huggingface.co/collections/unsloth/gemma-4-qat
    [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

    • 그 차트를 오해한 것 같음
      거기서 보이는 건 일반 BF16이 아니라 BF16 QAT Q4_0
      Google이 모델을 4비트로 양자화한 뒤, 하위 패커와의 호환성과 편의를 위해 결과를 BF16 형식으로 저장했다는 뜻에 가까움
      작은 8비트 숫자를 32비트 정수에 담아두는 것과 비슷해서, 양자화하지 않은 BF16의 100%에 가깝다는 의미는 아님
      다만 Google이 공개한 4비트 QAT Q4_0이 BF16 QAT Q4_0의 정확히 100%가 아닌 이유는 궁금함. 두 패킹 사이 변환은 추가 양자화 없이 비트 조작이면 될 것 같은데, Unsloth는 격자 정렬 문제가 있다고 말함
      그와 별개로 Google, Qwen 같은 소형 모델 제작사들이 새 모델을 낼 때 BF16 벤치마크만 보여주는 건 싫음. 실제로 사람들은 4~8비트 양자화를 돌리는데, 4비트와 6비트에서 얼마나 손해 보는지 알기 너무 어려움
    • 헷갈리는데, Unsloth 모델은 약 600MB이고 Google 쪽은 7GB인 건가?
  • 이번 주만 봐도 Gemma 생태계가 얼마나 빠르게 발전했는지 인상적임
    Gemma 12B, 다중 토큰 예측, 공식 양자화 모델이 나왔고, Google이 이 릴리스 흐름에 진짜 힘을 쏟는 느낌이라 기대됨

  • WWDC 직전 금요일이고, Apple이 Google 모델 기반의 “개선된” Siri를 발표할 예정이라는 점이 눈에 띔
    지금은 잠긴 파트너십일 수 있지만, Apple이 다음 주에 시연할 모델을 Google이 미리 공개하는 것일 수도 있음
    확실한 정보는 없고 그냥 추측임

  • ollamahf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB, RAM 14GB 노트북에서 돌려봤는데 예상보다 빠름

  • Gemma 4 12B를 공개하고(https://news.ycombinator.com/item?id=48385906), 며칠 뒤에 정식 Q4_0 Gemma 4 12B를 내는 건 조금 어색함
    그래도 이 글이 Q4_0 Gemma 4 12B의 예상 VRAM 사용량을 6.7GB로 적어둔 건 좋고, Google이 말한 16GB 안에 넉넉히 들어간다는 주장에는 맞지만 결국 양자화 버전만 해당된다는 점도 확인됨
    관련해서 Google이 새로 낸 macOS용 Edge Gallery에서는 16GB 머신에서도 RAM 부족으로 Gemma 4 12B를 지원하지 않는다고 명시되어 있는데, 여기 예상 VRAM 사용량을 보면 Q4_0 변형은 분명 들어가야 하므로 Google이 고쳐야 함

    • 여러 릴리스가 있는 게 왜 어색한지는 잘 모르겠음
      모델과 변형이 준비되는 대로 내는 편이, 모든 게 한꺼번에 준비될 때까지 붙잡아두는 것보다 낫다고 봄
      Q4_0은 원래 Gemma 4 12B를 단순 양자화한 게 아니라, 양자화 인식 학습 체크포인트임
    • 이해한 게 맞는지 모르겠지만, 4QQAT 4Q는 서로 다름
  • Google Pixel Intelligence가 Apple Intelligence를 이길 수도 있음

  • 12B 모델을 8GB VRAM에서 돌릴 수 있다는 건 큰 변화임
    작은 로컬 모델들이 얼마나 빠르게 발전했는지 놀라움

  • Gemma 4 E2B Unsloth 4Q로 꽤 잘 돌려봤음: https://youtube.com/shorts/XLsAnz5aAAI
    E4B 모델은 내 휴대폰 TPU에 올라가지 않아서 RAM으로 스왑되는데, QAT 버전이면 정확도가 더 좋아져서 반가움

    • 그걸로 어떻게 유용한 결과를 얻었는지 궁금함
      우리는 양자화하지 않은 E2B 모델도 가장 단순한 실제 분류 작업에서 완전히 쓸모없다고 봤음
    • TPU에서 도는지 RAM으로 스왑되는지 어떻게 알았는지 궁금함
      내 Pixel에서도 테스트해 보고 싶음