- Gemma 4 26B IT를 기반으로 애플 실리콘 MLX 최적화/4비트 양자화한 텍스트 전용 모델로, 약 13GB 크기
- 원본보다 똑똑하고, 동일 머신에서 더 빠르며, 코드·도구 사용·한국어에서 안정적인 비검열 모델
- 텍스트 전용 플래그십으로, 멀티모달이 아닌 빠른 텍스트 처리에 초점
- 퀵벤치 95.8점(원본 91.4)으로 개선 및 8.7% 빠른 생성 속도(46.2 tok/s), 체감상 응답 대기 시간 확연히 줄어듦
- 비검열(uncensored) 특성을 핵심 속성으로 유지하면서도 코드, 도구 사용, 한국어 프롬프트에서 안정적 출력을 냄
- 코드 생성 점수 98.6(+6.3)으로, 로컬에서 Python 함수 작성·리팩토링 시킬 때 원본보다 훨씬 정확한 결과를 보임
- 한국어 프롬프트 점수 95.0(+4.3)으로, 한국어로 질문해도 깨지지 않고 바로 쓸 수 있음
- 한국어 및 에이전트 스타일 프롬프트 처리 성능이 원본보다 우수
- 비검열 모델이라 콘텐츠 필터에 막히는 답변 제로, 그러면서도 출력이 불안정하거나 깨지지 않음
- 브라우저 자동화·도구 호출·계획 수립 등 로컬 에이전트 워크로드/파이프라인에 바로 투입 가능
- 실행하기:
mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
- OpenAI 호환 서빙 자동 지원, 별도 템플릿 설정 불필요(오히려
--chat-template에 경로 넣으면 응답 손상)
- MLX 4-bit, BF16·U32 텐서, Safetensors 포맷