양자화 모델

xguru · 2026-04-16T11:31:02+09:00

Gemma 4 26B IT를 기반으로 애플 실리콘 MLX 최적화/4비트 양자화한 텍스트 전용 모델로, 약 13GB 크기 원본보다 똑똑하고, 동일 머신에서 더 빠르며, 코드·도구 사용·한국어에서 안정적인 비검열 모델 텍스트 전용 플래그십으로, 멀티모달이 아닌 빠른 텍스트 처리에 초점 퀵벤치 95.8점(원본 91.4)으로 개선 및 8.7% 빠른 생성 속도(46.2 tok/s), 체감상 응답 대기 시간 확연히 줄어듦 비검열(uncensored) 특성을 핵심 속성으로 유지하면서도 코드, 도구 사용, 한국어 프롬프트에서 안정적 출력을 냄 코드 생성 점수 98.6(+6.3)으로, 로컬에서 Python 함수 작성·리팩토링 시킬 때 원본보다 훨씬 정확한 결과를 보임 한국어 프롬프트 점수 95.0(+4.3)으로, 한국어로 질문해도 깨지지 않고 바로 쓸 수 있음 한국어 및 에이전트 스타일 프롬프트 처리 성능이 원본보다 우수 비검열 모델이라 콘텐츠 필터에 막히는 답변 제로, 그러면서도 출력이 불안정하거나 깨지지 않음 브라우저 자동화·도구 호출·계획 수립 등 로컬 에이전트 워크로드/파이프라인에 바로 투입 가능 실행하기: mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080 OpenAI 호환 서빙 자동 지원, 별도 템플릿 설정 불필요(오히려 --chat-template에 경로 넣으면 응답 손상) MLX 4-bit, BF16·U32 텐서, Safetensors 포맷

(huggingface.co)

41P by xguru 3달전 | ★ favorite | 댓글 8개

Gemma 4 26B IT를 기반으로 애플 실리콘 MLX 최적화/4비트 양자화한 텍스트 전용 모델로, 약 13GB 크기
원본보다 똑똑하고, 동일 머신에서 더 빠르며, 코드·도구 사용·한국어에서 안정적인 비검열 모델
텍스트 전용 플래그십으로, 멀티모달이 아닌 빠른 텍스트 처리에 초점
퀵벤치 95.8점(원본 91.4)으로 개선 및 8.7% 빠른 생성 속도(46.2 tok/s), 체감상 응답 대기 시간 확연히 줄어듦
비검열(uncensored) 특성을 핵심 속성으로 유지하면서도 코드, 도구 사용, 한국어 프롬프트에서 안정적 출력을 냄
- 코드 생성 점수 98.6(+6.3)으로, 로컬에서 Python 함수 작성·리팩토링 시킬 때 원본보다 훨씬 정확한 결과를 보임
- 한국어 프롬프트 점수 95.0(+4.3)으로, 한국어로 질문해도 깨지지 않고 바로 쓸 수 있음
- 한국어 및 에이전트 스타일 프롬프트 처리 성능이 원본보다 우수
- 비검열 모델이라 콘텐츠 필터에 막히는 답변 제로, 그러면서도 출력이 불안정하거나 깨지지 않음
브라우저 자동화·도구 호출·계획 수립 등 로컬 에이전트 워크로드/파이프라인에 바로 투입 가능
실행하기:
- mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
- OpenAI 호환 서빙 자동 지원, 별도 템플릿 설정 불필요(오히려 --chat-template에 경로 넣으면 응답 손상)
MLX 4-bit, BF16·U32 텐서, Safetensors 포맷