5P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • 지난달 발표한 Gemma 3는 최첨단 성능을 제공하는 오픈 AI 모델이며, NVIDIA H100 같은 단일 고성능 GPU에서도 실행 가능
  • QAT(Quantization-Aware Training) 기법을 적용한 경량화 버전을 출시하여 이제 소비자용 GPU에서도 실행 가능해짐
  • int4 양자화 덕분에 메모리 사용량이 크게 줄어들며, 성능 저하를 최소화
  • QAT 모델은 RTX 3090, RTX 4060 등 일반 GPU에서도 실행 가능하며, Hugging Face, Ollama, LM Studio 등에서 바로 사용 가능함
  • 커뮤니티 버전의 다양한 PTQ 모델도 함께 제공되어 유연한 선택이 가능

Gemma 3 소개 및 성능 개요

  • Google이 발표한 최신 오픈 모델 Gemma 3는 뛰어난 성능을 가진 대규모 언어 모델
  • BF16(16비트 부동소수점) 정밀도로 NVIDIA H100 GPU에서 실행 가능하며, 탁월한 Chatbot Arena Elo 점수 기록함
  • BF16 사용 이유는 모델 간 성능 비교를 공정하게 하기 위함으로, 다양한 최적화 방식이 배제된 상태에서 모델 본연의 성능을 비교 가능함

접근성 향상을 위한 QAT 기반 양자화

  • 기존 대형 모델은 고사양 클라우드 환경이 필요했지만, 소비자용 하드웨어에서도 실행 가능하게 만들기 위해 QAT 기법을 적용함
  • 양자화(Quantization) 는 모델 내부 수치 정밀도를 줄여 메모리 사용량을 줄이고 실행을 빠르게 함
  • 예: BF16 대신 int4 형식 사용 시 4배 이상 압축 효과 발생

QAT를 활용한 품질 유지

  • 단순 후처리 양자화 대신 QAT(Quantization-Aware Training) 방식을 사용하여 훈련 중 양자화를 반영함
  • 훈련 과정에서 약 5,000 스텝 동안 비양자화된 체크포인트의 예측 확률을 목표값으로 사용
  • 이 방식으로 Q4_0 양자화 시 Perplexity 감소율을 54% 줄이는 성과 달성

VRAM 사용량의 획기적인 감소

  • int4 양자화로 인한 VRAM 절감 효과가 크며, 모델별 감소폭은 아래와 같음:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • 이 수치는 모델 가중치를 로딩하는 데 필요한 VRAM만 포함되며, 실행 중 필요한 KV 캐시는 별도 VRAM을 요구함

다양한 기기에서 실행 가능

  • Gemma 3 27B (int4): **RTX 3090 (24GB VRAM)**에서 로컬 실행 가능
  • Gemma 3 12B (int4): **RTX 4060 Laptop (8GB VRAM)**에서도 문제 없이 실행
  • Gemma 3 4B, 1B: 스마트폰 및 저사양 기기에서도 구동 가능

손쉬운 통합 및 사용

  • QAT 모델은 다양한 플랫폼 및 도구에서 바로 사용 가능:

    • Ollama: 명령어 한 줄로 실행
    • LM Studio: GUI 환경에서 다운로드 및 실행
    • MLX: Apple Silicon 기반에서 고효율 추론 지원
    • Gemma.cpp: CPU 환경에서 고성능 실행
    • llama.cpp: GGUF 포맷으로 손쉬운 통합

Gemmaverse의 커뮤니티 모델

  • 공식 QAT 모델 외에도 다양한 커뮤니티 PTQ 모델 제공
  • 주요 기여자: Bartowski, Unsloth, GGML
  • 다양한 모델은 속도, 크기, 품질의 균형을 맞추어 선택 가능

지금 바로 시작 가능

  • AI의 대중화를 위한 중요한 단계로, Gemma 3의 QAT 버전은 누구나 로컬에서 실행 가능
  • 실행 방법:
Hacker News 의견
  • gemma-3-27b-it-qat-4bit 모델이 Mistral Small 3.1 24B와 함께 새로운 선호 모델임

    • M2 64GB에서 Ollama와 MLX를 통해 사용 중이며, 메모리 사용량이 적어 다른 앱 실행에 충분한 여유가 있음
    • LLM 도구용 플러그인을 작성하는 데 성공적인 결과를 얻음
  • 개인적인 "분위기 체크" 질문에 대해 4bit QAT 27B 모델이 정확한 답변을 제공함

    • 13GB의 가중치에 담긴 정보 밀도에 놀라움을 느낌
    • Deepmind의 Gemma 3 27B 모델이 가장 인상적인 오픈 소스 모델임
  • 첫 번째 그래프는 "Elo Score"를 BF16 정밀도로 비교한 것이며, 두 번째 그래프는 VRAM 사용량을 비교한 것임

    • BF16과 QAT 간의 품질 비교 그래프가 없다는 점이 아쉬움
  • qwen2.5 대신 gemma3:27b-it-qat를 사용하여 32G 메모리 Mac에서 일상 작업을 수행 중임

    • Python, Haskell, Common Lisp 개발에 매우 유용함
    • 오픈 소스 모델을 로컬에서 실행하는 것이 만족스러움
  • 16코어 AMD 3950x CPU에서 실행 중이며, 번역 및 이미지 설명에서 매우 인상적임

    • 번역 시에는 입력 언어 분석을 피하기 위해 명령어를 조정함
  • 최신 QAT gemma3:27b 다운로드 후 성능이 1.47배 향상됨

  • 로컬 LLM이 기업에 의해 일급 시민처럼 대우받는 것이 필요함

    • 첫 번째 그래프가 DeepSeek r1의 FP16 실행에 필요한 H100 수에 대해 오해를 줄 수 있음
  • Microsoft와 Apple이 AI PC와 Apple Intelligence를 홍보했지만, 실제로 소비자 GPU에서 사용 가능한 모델은 고급 GPU에서만 가능함

  • Gemma 3가 Llama 4보다 훨씬 뛰어남

    • Meta가 LLM 시장에서의 위치를 잃을 가능성이 있음
    • Llama 4의 모델 크기가 너무 커서 사용자가 제한됨
    • Gemma 3는 모든 하드웨어 크기에서 널리 사용 가능함
  • Ollama에서 사용 가능함