Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

(blog.google)

4P by GN⁺ 1달전 | ★ favorite | 댓글 1개

Gemma 4 양자화 인식 학습(QAT) 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 로컬 실행을 돕도록 메모리 요구량과 온디바이스 성능을 최적화함
QAT는 학습 중 양자화를 시뮬레이션해 압축 시 품질 손실을 줄이며, 표준 PTQ 기준선보다 전반적 품질이 더 높은 결과를 냄
공개된 체크포인트는 Q4_0 형식과 모바일 특화 형식을 대상으로 하며, 모바일 형식은 Gemma 4 E2B의 메모리 풋프린트를 1GB로 낮춤
모바일 스키마는 정적 활성화, 채널별 양자화, 선택적 2비트 양자화, 임베딩·KV 캐시 최적화로 모바일 칩의 작업량과 활성 메모리 사용을 줄임
Hugging Face 가중치, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth 지원으로 로컬 실행과 온디바이스 배포, 파인튜닝을 수행할 수 있음

공개 배경과 범위

Gemma 4 출시 두 달 뒤, Google은 추론 가속용 Multi-Token Prediction(MTP)과 E4B·26B MOE 모델 사이를 메우는 12B 모델에 이어 QAT 체크포인트를 공개함
새 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 Gemma 4를 로컬로 실행할 수 있게 하려는 효율화 작업임
QAT는 학습 중 양자화를 시뮬레이션해 모델 압축 시 품질 손실을 최소화하는 방식임
이번 릴리스는 인기 있는 Q4_0 양자화 형식용 QAT 체크포인트와 모바일 사용 사례에 특화된 새 양자화 형식을 제공함

압축과 품질 절충

양자화는 소비자 하드웨어에서 모델을 실행하기 위한 핵심 기술이며, 메모리 풋프린트를 줄이고 디코드 속도를 높임
표준 학습 후 양자화(PTQ)는 종종 성능 저하를 낳지만, QAT는 양자화 과정을 학습에 직접 통합함
PTQ도 품질 보존에 효과적이지만, QAT 결과는 표준 PTQ 기준선보다 더 높은 전반적 품질을 냄
Google은 모든 모델 성능 극대화를 위해 Q4_0 형식에 QAT 레시피를 적용했고, E2B·E4B 에지 모델에는 모바일 특화 양자화 스키마를 따로 설계함

모바일 최적화 구조

표준 압축 형식은 모바일 프로세서에서 효율적으로 실행하기 어려운 경우가 많아, Gemma 4는 에지 하드웨어용 맞춤형 모바일 양자화 스키마를 사용함
정적 활성화는 데이터 스케일 설정을 학습 중 미리 계산해 모바일 칩의 작업량을 줄이고 응답 속도를 높임
채널별 양자화는 압축 데이터를 모바일 가속기 구조에 맞춰 구성해 느린 우회 방식 없이 네이티브 계산을 가능하게 함
선택적 2비트 양자화는 토큰 생성 부분을 2비트로 강하게 압축하고 핵심 추론 레이어는 더 높은 정밀도로 유지해 저장 공간을 절약함
임베딩 및 KV 캐시 최적화는 모델의 어휘 목록과 단기 메모리에 압축을 집중해 활성 메모리 풋프린트를 크게 줄이고 긴 대화를 가능하게 함
오디오·비전 인코더가 필요 없는 사용 사례에서는 필요한 모달리티만 배포해 메모리 풋프린트를 더 줄일 수 있으며, Per-Layer Embeddings 없는 Gemma 4 E2B 텍스트 전용 모델은 1GB 미만의 메모리를 요구함

사용 방법과 도구 지원

Google은 Q4_0 및 mobile 모델 가중치를 Hugging Face에서 제공함
GGUF 형식은 llama.cpp에서 바로 사용할 수 있고, 압축 텐서는 vLLM용으로 제공되며, 그 외 워크플로에는 Q4_0 지원 형식으로 변환·양자화할 수 있는 비양자화 체크포인트를 공유함
배포 방법은 문서에서 확인할 수 있음
데스크톱에서는 llama.cpp, Ollama, LM Studio로 Gemma 4 QAT 모델을 로컬에서 다운로드·관리·실행할 수 있음
온디바이스 배포에는 Google의 경량 LiteRT-LM 런타임을 사용할 수 있고, 웹에서는 Transformers.js로 직접 실행할 수 있음
대형 모델 서빙에는 SGLang과 vLLM을 사용할 수 있고, Apple Silicon 최적화에는 MLX을 사용할 수 있음
MTP QAT 체크포인트는 모델을 양자화하면서 MTP의 속도 향상을 보존하며, Hugging Face Transformers와 Unsloth로 가중치를 직접 파인튜닝할 수 있음

GN⁺ 1달전 [-]

Hacker News 의견들

Mac에서 uvx litert-lm run으로 Gemma 4 E2B를 로컬 실행해 봤고, 첫 실행 때 ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm에 3.2GB를 내려받음
이 크기 모델이 오디오와 이미지 입력도 처리하는 게 꽤 인상적이고, 이미지에는 --attachment image.jpg --prompt describe, 오디오에는 --attachment audio.wav --prompt transcribe처럼 실행 가능함
펠리컨 SVG 결과물 자체는 별로였지만, 3.2GB 파일이 유효한 SVG를 내놓는다는 점은 놀라웠음: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
- 이게 실제로 양자화 인식 학습(QAT) 인지 헷갈림
  MLX Community 모델들은 이름에 그렇게 들어가 있는데, 여기 모델들은 그렇지 않고 업로드 날짜도 완전히 맞아 보이지 않음
- 텍스트 전용 0.8GB 버전도 있다는 게 놀라움
  이제 기기 안에서 영상과 오디오를 인식하는 기본적인 실시간 대화가 가능해짐
- 별개로 uvx는 쓰기 정말 편함
  Nvidia도 사람들이 Docker 우회 절차를 밟게 하지 말고 1급으로 지원해줬으면 좋겠음
Unsloth 컬렉션도 있고 [0], 결과도 공개되어 있음 [1]
양자화하지 않은 BF16 모델 대비 거의 100% 정확도에 가까워 보이고, 글에 나온 Google의 원래 QAT보다 Unsloth 양자화가 더 좋아 보임
개인적으로는 휴대폰에 모델을 내장한 상태에서도 Unsloth Studio와 API로 2B 모델을 웹 검색과 구조화된 JSON 출력에 쓰고 있는데, 이 용도에는 아주 잘 맞음
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
- 그 차트를 오해한 것 같음
  거기서 보이는 건 일반 BF16이 아니라 BF16 QAT Q4_0임
  Google이 모델을 4비트로 양자화한 뒤, 하위 패커와의 호환성과 편의를 위해 결과를 BF16 형식으로 저장했다는 뜻에 가까움
  작은 8비트 숫자를 32비트 정수에 담아두는 것과 비슷해서, 양자화하지 않은 BF16의 100%에 가깝다는 의미는 아님
  다만 Google이 공개한 4비트 QAT Q4_0이 BF16 QAT Q4_0의 정확히 100%가 아닌 이유는 궁금함. 두 패킹 사이 변환은 추가 양자화 없이 비트 조작이면 될 것 같은데, Unsloth는 격자 정렬 문제가 있다고 말함
  그와 별개로 Google, Qwen 같은 소형 모델 제작사들이 새 모델을 낼 때 BF16 벤치마크만 보여주는 건 싫음. 실제로 사람들은 4~8비트 양자화를 돌리는데, 4비트와 6비트에서 얼마나 손해 보는지 알기 너무 어려움
- 헷갈리는데, Unsloth 모델은 약 600MB이고 Google 쪽은 7GB인 건가?
이번 주만 봐도 Gemma 생태계가 얼마나 빠르게 발전했는지 인상적임
Gemma 12B, 다중 토큰 예측, 공식 양자화 모델이 나왔고, Google이 이 릴리스 흐름에 진짜 힘을 쏟는 느낌이라 기대됨
WWDC 직전 금요일이고, Apple이 Google 모델 기반의 “개선된” Siri를 발표할 예정이라는 점이 눈에 띔
지금은 잠긴 파트너십일 수 있지만, Apple이 다음 주에 시연할 모델을 Google이 미리 공개하는 것일 수도 있음
확실한 정보는 없고 그냥 추측임
ollama로 hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0를 AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB, RAM 14GB 노트북에서 돌려봤는데 예상보다 빠름
Gemma 4 12B를 공개하고(https://news.ycombinator.com/item?id=48385906), 며칠 뒤에 정식 Q4_0 Gemma 4 12B를 내는 건 조금 어색함
그래도 이 글이 Q4_0 Gemma 4 12B의 예상 VRAM 사용량을 6.7GB로 적어둔 건 좋고, Google이 말한 16GB 안에 넉넉히 들어간다는 주장에는 맞지만 결국 양자화 버전만 해당된다는 점도 확인됨
관련해서 Google이 새로 낸 macOS용 Edge Gallery에서는 16GB 머신에서도 RAM 부족으로 Gemma 4 12B를 지원하지 않는다고 명시되어 있는데, 여기 예상 VRAM 사용량을 보면 Q4_0 변형은 분명 들어가야 하므로 Google이 고쳐야 함
- 여러 릴리스가 있는 게 왜 어색한지는 잘 모르겠음
  모델과 변형이 준비되는 대로 내는 편이, 모든 게 한꺼번에 준비될 때까지 붙잡아두는 것보다 낫다고 봄
  Q4_0은 원래 Gemma 4 12B를 단순 양자화한 게 아니라, 양자화 인식 학습 체크포인트임
- 이해한 게 맞는지 모르겠지만, 4Q와 QAT 4Q는 서로 다름
Google Pixel Intelligence가 Apple Intelligence를 이길 수도 있음
12B 모델을 8GB VRAM에서 돌릴 수 있다는 건 큰 변화임
작은 로컬 모델들이 얼마나 빠르게 발전했는지 놀라움
Gemma 4 E2B Unsloth 4Q로 꽤 잘 돌려봤음: https://youtube.com/shorts/XLsAnz5aAAI
E4B 모델은 내 휴대폰 TPU에 올라가지 않아서 RAM으로 스왑되는데, QAT 버전이면 정확도가 더 좋아져서 반가움
- 그걸로 어떻게 유용한 결과를 얻었는지 궁금함
  우리는 양자화하지 않은 E2B 모델도 가장 단순한 실제 분류 작업에서 완전히 쓸모없다고 봤음
- TPU에서 도는지 RAM으로 스왑되는지 어떻게 알았는지 궁금함
  내 Pixel에서도 테스트해 보고 싶음

답변달기

Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

공개 배경과 범위

압축과 품질 절충

모바일 최적화 구조

사용 방법과 도구 지원

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들