▲GN⁺ 2025-04-21 | parent | ★ favorite | on: Gemma 3 QAT 모델: 최첨단 AI를 소비자 GPU에 도입(developers.googleblog.com)Hacker News 의견 gemma-3-27b-it-qat-4bit 모델이 Mistral Small 3.1 24B와 함께 새로운 선호 모델임 M2 64GB에서 Ollama와 MLX를 통해 사용 중이며, 메모리 사용량이 적어 다른 앱 실행에 충분한 여유가 있음 LLM 도구용 플러그인을 작성하는 데 성공적인 결과를 얻음 개인적인 "분위기 체크" 질문에 대해 4bit QAT 27B 모델이 정확한 답변을 제공함 13GB의 가중치에 담긴 정보 밀도에 놀라움을 느낌 Deepmind의 Gemma 3 27B 모델이 가장 인상적인 오픈 소스 모델임 첫 번째 그래프는 "Elo Score"를 BF16 정밀도로 비교한 것이며, 두 번째 그래프는 VRAM 사용량을 비교한 것임 BF16과 QAT 간의 품질 비교 그래프가 없다는 점이 아쉬움 qwen2.5 대신 gemma3:27b-it-qat를 사용하여 32G 메모리 Mac에서 일상 작업을 수행 중임 Python, Haskell, Common Lisp 개발에 매우 유용함 오픈 소스 모델을 로컬에서 실행하는 것이 만족스러움 16코어 AMD 3950x CPU에서 실행 중이며, 번역 및 이미지 설명에서 매우 인상적임 번역 시에는 입력 언어 분석을 피하기 위해 명령어를 조정함 최신 QAT gemma3:27b 다운로드 후 성능이 1.47배 향상됨 로컬 LLM이 기업에 의해 일급 시민처럼 대우받는 것이 필요함 첫 번째 그래프가 DeepSeek r1의 FP16 실행에 필요한 H100 수에 대해 오해를 줄 수 있음 Microsoft와 Apple이 AI PC와 Apple Intelligence를 홍보했지만, 실제로 소비자 GPU에서 사용 가능한 모델은 고급 GPU에서만 가능함 Gemma 3가 Llama 4보다 훨씬 뛰어남 Meta가 LLM 시장에서의 위치를 잃을 가능성이 있음 Llama 4의 모델 크기가 너무 커서 사용자가 제한됨 Gemma 3는 모든 하드웨어 크기에서 널리 사용 가능함 Ollama에서 사용 가능함
Hacker News 의견
gemma-3-27b-it-qat-4bit 모델이 Mistral Small 3.1 24B와 함께 새로운 선호 모델임
개인적인 "분위기 체크" 질문에 대해 4bit QAT 27B 모델이 정확한 답변을 제공함
첫 번째 그래프는 "Elo Score"를 BF16 정밀도로 비교한 것이며, 두 번째 그래프는 VRAM 사용량을 비교한 것임
qwen2.5 대신 gemma3:27b-it-qat를 사용하여 32G 메모리 Mac에서 일상 작업을 수행 중임
16코어 AMD 3950x CPU에서 실행 중이며, 번역 및 이미지 설명에서 매우 인상적임
최신 QAT gemma3:27b 다운로드 후 성능이 1.47배 향상됨
로컬 LLM이 기업에 의해 일급 시민처럼 대우받는 것이 필요함
Microsoft와 Apple이 AI PC와 Apple Intelligence를 홍보했지만, 실제로 소비자 GPU에서 사용 가능한 모델은 고급 GPU에서만 가능함
Gemma 3가 Llama 4보다 훨씬 뛰어남
Ollama에서 사용 가능함