이 GGUF 모델은 48.4GB 크기로, 고사양 노트북에서도 실행 가능함
아직까지는 내 64GB MacBook Pro에서 Codex CLI나 Claude Code 수준의 코딩 에이전트를 제대로 돌릴 수 있는 로컬 모델을 못 봤음
혹시 이번엔 다를까 싶음. Unsloth 가이드를 보면 가능성이 있어 보임
“로컬 모델”이라는 표현 대신 “내 컴퓨터 모델” 같은 새로운 용어가 필요하다고 생각함
단순히 같은 머신에서 llama.cpp로 연결된 걸 로컬이라 부르기엔 부족함. 내가 말하는 로컬은 LAN 모델, 즉 내가 직접 제어하는 하드웨어에서 inference를 ‘공짜로’ 돌릴 수 있는 수준을 의미함
예를 들어 5090 + Threadripper + 256GB RAM 구성은 약 1만 달러 정도, MLX 경로는 6천 달러 정도임
모델의 내부 구조와 양자화 방식이 실제 메모리 사용량에 큰 영향을 주므로, 단순히 파라미터 수로 비교하는 건 점점 의미가 줄어듦
따라서 표준화된 하드웨어 기준으로 toolcalling, 코드 생성, 문서 처리 같은 실제 작업을 벤치마크하는 시스템이 필요하다고 봄
나는 Qwen3-Coder-30B-A3B-Instruct gguf를 13GB RAM VM과 6GB RTX 2060 GPU에서 돌리고 있음
오래된 Razer Blade 노트북인데도 64k 컨텍스트까지는 꽤 안정적으로 작동함
작은 프로젝트나 버그 수정, UI 개선 같은 작업에는 충분히 쓸 만함
다만 “usable”의 기준은 사람마다 다르다고 생각함. 어떤 작업을 시도했는지에 따라 평가가 달라질 것임
나는 GPT-OSS-120b (MXFP4) 를 Codex와 함께 써봤는데, 약 66GB VRAM을 사용함
120b 모델의 좋은 실행 로그를 모아 20b 버전을 후속 학습(fine-tuning) 하면 꽤 유용할 것 같음
reasoning_effort를 높이면 꽤 괜찮은 결과를 내지만, 64GB 메모리 한계 때문에 20b 개선이 현실적임
Claude Code를 로컬 모델(ollama run glm-4.7-flash)로 설정해 32GB M2Pro Mac mini에서 돌려봤음
오래된 git 프로젝트 코드 정리, 문서화, 테스트 추가 등에는 충분히 쓸 만했음
내 기준이 낮을 수도 있지만, 로컬 코딩 보조로는 꽤 만족스러움
앞으로 5년쯤 뒤면 대부분의 모델이 로컬 실행 가능해질 것 같음
고성능 GPU와 메모리 생산이 늘고, 모델 최적화가 진행되면 중급 하드웨어에서도 충분히 좋은 성능을 낼 수 있을 것임
로컬 배포용 Dynamic Unsloth GGUF를 Hugging Face에 올렸고, Claude Code / Codex를 로컬에서 사용하는 가이드도 작성했음
내 시스템에서 약 39 tok/s, GPU 사용률 60% 수준으로 동작함
Radeon RX 7900 XTX 기반 환경에서 llama.cpp 서버를 실행했고, ctx-size 32768 설정으로 안정적으로 작동함
Framework Desktop에서 내 모델을 사용 중이라는 피드백을 받음
왜 Qwen3의 기본 GGUF 대신 Unsloth 버전을 써야 하는지 궁금하다는 질문이 있었음
IQuest-Coder도 같은 방식으로 배포되길 바란다는 요청이 있었음
UD 버전과 일반 버전의 차이를 묻는 질문이 있었음
“이걸 이렇게 빨리 만들 수 있었던 이유가 뭐냐”는 놀라움 섞인 반응도 있었음
Homebrew로 llama.cpp를 설치해 Unsloth 양자화 모델을 로컬에서 실행했음
CLI 인터페이스와 OpenAI 호환 API 서버를 동시에 띄울 수 있었고, 약 28GB RAM을 사용함
누군가는 토큰 속도(token/s)가 얼마나 되는지 물었음
또 다른 사람은 전반적인 인상(impression)이 어떤지 궁금해했음
이 모델이 정말로 주장대로라면 3B 활성 파라미터로 Sonnet 4.5 수준의 코딩 성능을 낸다는 건 엄청난 일임
Q2, Q4 양자화 버전을 테스트해봤는데, 로컬에서 돌아가는 건 놀랍지만 Sonnet 4.5 수준은 아님
간단한 문제에서도 오류가 있었고, thinking loop에 빠지는 경우도 있었음
초기 구현 버그일 수도 있지만, 현재로선 과장된 성능 주장으로 보임
내 체감상 Haiku 수준에 더 가까움
“너무 좋아 보이면 진짜가 아닐 가능성이 높다”는 말이 떠오름
Qwen3 Coder 30B를 Mac M4 Max(36GB)에서 로컬로 돌려봤음
느리긴 했지만 작동했고, 꽤 괜찮은 결과를 냈음 시연 영상과 설정 방법 블로그를 공유함
6GB VRAM 노트북에서 17 tok/s, 최대 100k 컨텍스트까지 가능했음
놀랍긴 하지만 속도가 느려서 결국 클라우드 inference를 계속 쓸 예정임
[docker-compose 설정 예시]를 공유함
DGX Spark + vLLM 0.15.1 환경에서 FP8 모델을 벤치마크함
단일 요청 기준 약 43 tok/s, 병렬 요청에서는 최대 62 tok/s까지 도달함
FP8 모델을 vLLM에서 돌려봤는데, 실행 중 BF16으로 디퀀타이즈되어 메모리 스왑이 발생함
llama.cpp의 4-bit 양자화 버전은 약 30~35 tok/s, 200k 컨텍스트에서도 50GB RAM만 사용함
3B 활성 파라미터로 GLM 4.7보다 약간 낮은 성능을 보이지만, 효율은 놀라움
빠르지만 단순한 코딩 에이전트를 오케스트레이터와 함께 쓰면 전체 속도는 더 빨라질 수도 있다고 생각함
나는 Claude의 sub-agent 기능을 활용해 Mastra 기반 TypeScript 에이전트들을 CLI로 돌리고 있음
코드 스캔, 라이브러리 검색, SourceGraph 탐색 같은 반복 작업을 자동화함
Mastra의 Workspace 기능 덕분에 더 강력한 에이전트형 개발이 가능해졌음
Strix Halo가 어떤지 궁금하다는 질문이 있었음. 양자화 없이 로컬 추론이 가능한 머신을 원한다는 의견도 있었음
NVIDIA Spark에서 비슷한 수치를 얻었고, Q4_K_XL 버전으로 테스트 중임
FP8은 110GB를 사용해 16k 컨텍스트밖에 안 됐음
Rust 코드 생성에 써봤는데 꽤 유능했음. 속도만 개선되면 실제로 쓸 수 있을 듯함
조만간 API 제공자들이 저렴하게 이 모델을 서비스할 것 같음
로컬 모델 랭킹을 신뢰할 수 있는 곳이 어디인지 궁금함
벤치마크가 너무 조작된 느낌이라, 개인 리뷰가 더 의미 있다고 생각함
코드, 음성, 이미지, 요약, 음악 등 도메인별 우수 모델을 정리한 곳이 있는지 알고 싶음
Hacker News 의견들
이 GGUF 모델은 48.4GB 크기로, 고사양 노트북에서도 실행 가능함
아직까지는 내 64GB MacBook Pro에서 Codex CLI나 Claude Code 수준의 코딩 에이전트를 제대로 돌릴 수 있는 로컬 모델을 못 봤음
혹시 이번엔 다를까 싶음. Unsloth 가이드를 보면 가능성이 있어 보임
단순히 같은 머신에서 llama.cpp로 연결된 걸 로컬이라 부르기엔 부족함. 내가 말하는 로컬은 LAN 모델, 즉 내가 직접 제어하는 하드웨어에서 inference를 ‘공짜로’ 돌릴 수 있는 수준을 의미함
예를 들어 5090 + Threadripper + 256GB RAM 구성은 약 1만 달러 정도, MLX 경로는 6천 달러 정도임
모델의 내부 구조와 양자화 방식이 실제 메모리 사용량에 큰 영향을 주므로, 단순히 파라미터 수로 비교하는 건 점점 의미가 줄어듦
따라서 표준화된 하드웨어 기준으로 toolcalling, 코드 생성, 문서 처리 같은 실제 작업을 벤치마크하는 시스템이 필요하다고 봄
오래된 Razer Blade 노트북인데도 64k 컨텍스트까지는 꽤 안정적으로 작동함
작은 프로젝트나 버그 수정, UI 개선 같은 작업에는 충분히 쓸 만함
다만 “usable”의 기준은 사람마다 다르다고 생각함. 어떤 작업을 시도했는지에 따라 평가가 달라질 것임
120b 모델의 좋은 실행 로그를 모아 20b 버전을 후속 학습(fine-tuning) 하면 꽤 유용할 것 같음
reasoning_effort를 높이면 꽤 괜찮은 결과를 내지만, 64GB 메모리 한계 때문에 20b 개선이 현실적임
오래된 git 프로젝트 코드 정리, 문서화, 테스트 추가 등에는 충분히 쓸 만했음
내 기준이 낮을 수도 있지만, 로컬 코딩 보조로는 꽤 만족스러움
고성능 GPU와 메모리 생산이 늘고, 모델 최적화가 진행되면 중급 하드웨어에서도 충분히 좋은 성능을 낼 수 있을 것임
로컬 배포용 Dynamic Unsloth GGUF를 Hugging Face에 올렸고,
Claude Code / Codex를 로컬에서 사용하는 가이드도 작성했음
Radeon RX 7900 XTX 기반 환경에서 llama.cpp 서버를 실행했고, ctx-size 32768 설정으로 안정적으로 작동함
왜 Qwen3의 기본 GGUF 대신 Unsloth 버전을 써야 하는지 궁금하다는 질문이 있었음
Homebrew로 llama.cpp를 설치해 Unsloth 양자화 모델을 로컬에서 실행했음
CLI 인터페이스와 OpenAI 호환 API 서버를 동시에 띄울 수 있었고, 약 28GB RAM을 사용함
이 모델이 정말로 주장대로라면 3B 활성 파라미터로 Sonnet 4.5 수준의 코딩 성능을 낸다는 건 엄청난 일임
간단한 문제에서도 오류가 있었고, thinking loop에 빠지는 경우도 있었음
초기 구현 버그일 수도 있지만, 현재로선 과장된 성능 주장으로 보임
Qwen3 Coder 30B를 Mac M4 Max(36GB)에서 로컬로 돌려봤음
느리긴 했지만 작동했고, 꽤 괜찮은 결과를 냈음
시연 영상과 설정 방법 블로그를 공유함
6GB VRAM 노트북에서 17 tok/s, 최대 100k 컨텍스트까지 가능했음
놀랍긴 하지만 속도가 느려서 결국 클라우드 inference를 계속 쓸 예정임
[docker-compose 설정 예시]를 공유함
DGX Spark + vLLM 0.15.1 환경에서 FP8 모델을 벤치마크함
단일 요청 기준 약 43 tok/s, 병렬 요청에서는 최대 62 tok/s까지 도달함
llama.cpp의 4-bit 양자화 버전은 약 30~35 tok/s, 200k 컨텍스트에서도 50GB RAM만 사용함
3B 활성 파라미터로 GLM 4.7보다 약간 낮은 성능을 보이지만, 효율은 놀라움
빠르지만 단순한 코딩 에이전트를 오케스트레이터와 함께 쓰면 전체 속도는 더 빨라질 수도 있다고 생각함
코드 스캔, 라이브러리 검색, SourceGraph 탐색 같은 반복 작업을 자동화함
Mastra의 Workspace 기능 덕분에 더 강력한 에이전트형 개발이 가능해졌음
lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0을 Strix Halo에서 돌려봤는데,
32 tok/s, 128k 컨텍스트까지 가능했음. MiniMax M2.1 Q6보다 약간 약하지만 인상적임
FP8은 110GB를 사용해 16k 컨텍스트밖에 안 됐음
Rust 코드 생성에 써봤는데 꽤 유능했음. 속도만 개선되면 실제로 쓸 수 있을 듯함
조만간 API 제공자들이 저렴하게 이 모델을 서비스할 것 같음
로컬 모델 랭킹을 신뢰할 수 있는 곳이 어디인지 궁금함
벤치마크가 너무 조작된 느낌이라, 개인 리뷰가 더 의미 있다고 생각함
코드, 음성, 이미지, 요약, 음악 등 도메인별 우수 모델을 정리한 곳이 있는지 알고 싶음