Gemma 3 QAT 모델: 최첨단 AI를 소비자 GP

▲

GN⁺ 2025-04-21 | parent | ★ favorite | on: Gemma 3 QAT 모델: 최첨단 AI를 소비자 GPU에 도입(developers.googleblog.com)

Hacker News 의견

gemma-3-27b-it-qat-4bit 모델이 Mistral Small 3.1 24B와 함께 새로운 선호 모델임
- M2 64GB에서 Ollama와 MLX를 통해 사용 중이며, 메모리 사용량이 적어 다른 앱 실행에 충분한 여유가 있음
- LLM 도구용 플러그인을 작성하는 데 성공적인 결과를 얻음
개인적인 "분위기 체크" 질문에 대해 4bit QAT 27B 모델이 정확한 답변을 제공함
- 13GB의 가중치에 담긴 정보 밀도에 놀라움을 느낌
- Deepmind의 Gemma 3 27B 모델이 가장 인상적인 오픈 소스 모델임
첫 번째 그래프는 "Elo Score"를 BF16 정밀도로 비교한 것이며, 두 번째 그래프는 VRAM 사용량을 비교한 것임
- BF16과 QAT 간의 품질 비교 그래프가 없다는 점이 아쉬움
qwen2.5 대신 gemma3:27b-it-qat를 사용하여 32G 메모리 Mac에서 일상 작업을 수행 중임
- Python, Haskell, Common Lisp 개발에 매우 유용함
- 오픈 소스 모델을 로컬에서 실행하는 것이 만족스러움
16코어 AMD 3950x CPU에서 실행 중이며, 번역 및 이미지 설명에서 매우 인상적임
- 번역 시에는 입력 언어 분석을 피하기 위해 명령어를 조정함
최신 QAT gemma3:27b 다운로드 후 성능이 1.47배 향상됨
로컬 LLM이 기업에 의해 일급 시민처럼 대우받는 것이 필요함
- 첫 번째 그래프가 DeepSeek r1의 FP16 실행에 필요한 H100 수에 대해 오해를 줄 수 있음
Microsoft와 Apple이 AI PC와 Apple Intelligence를 홍보했지만, 실제로 소비자 GPU에서 사용 가능한 모델은 고급 GPU에서만 가능함
Gemma 3가 Llama 4보다 훨씬 뛰어남
- Meta가 LLM 시장에서의 위치를 잃을 가능성이 있음
- Llama 4의 모델 크기가 너무 커서 사용자가 제한됨
- Gemma 3는 모든 하드웨어 크기에서 널리 사용 가능함
Ollama에서 사용 가능함