# Qwen3.5 로컬 실행 가이드

> Clean Markdown view of GeekNews topic #27315. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27315](https://news.hada.io/topic?id=27315)
- GeekNews Markdown: [https://news.hada.io/topic/27315.md](https://news.hada.io/topic/27315.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-09T00:37:00+09:00
- Updated: 2026-03-09T00:37:00+09:00
- Original source: [unsloth.ai](https://unsloth.ai/docs/models/qwen3.5)
- Points: 33
- Comments: 2

## Summary

Alibaba의 **Qwen3.5 모델군**은 0.8B부터 397B까지 폭넓은 크기를 제공하며, **멀티모달 하이브리드 추론**과 최대 **256K 컨텍스트**를 지원합니다. Unsloth는 모든 모델을 **Dynamic 2.0 GGUF 양자화**로 배포해, `llama.cpp`나 LM Studio에서 로컬 실행이 가능하도록 했습니다. 특히 27B·35B 모델은 22GB RAM의 Mac에서도 동작하며, **Thinking 모드 전환**과 세밀한 파라미터 조정으로 환경에 맞는 최적 추론을 구성할 수 있습니다.

## Topic Body

- Alibaba의 **Qwen3.5 모델군**은 0.8B부터 397B까지 다양한 크기를 제공하며, **멀티모달 하이브리드 추론** 기능과 **256K 컨텍스트**를 지원  
- Unsloth는 모든 Qwen3.5 모델을 **Dynamic 2.0 GGUF 양자화**로 제공하며, **llama.cpp** 또는 **LM Studio**를 통해 로컬에서 실행 가능  
- **생각(thinking)** 모드와 **비추론(non-thinking)** 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정  
- 각 모델별로 필요한 **RAM/VRAM 용량**과 **권장 설정값**(temperature, top_p 등)이 명시되어 있으며, **Mac 22GB** 환경에서도 27B·35B 모델 실행 가능  
- Unsloth GGUF는 **향상된 양자화 알고리듬**과 **imatrix 데이터**를 적용해 성능을 개선했으며, **Ollama에서는 비호환**임  

---
### Qwen3.5 개요
- Qwen3.5는 Alibaba가 공개한 **새로운 LLM 시리즈**로, 0.8B·2B·4B·9B(소형)부터 27B·35B·122B·397B(대형)까지 포함  
  - **멀티모달 하이브리드 추론**을 지원하며, **201개 언어**와 **256K 컨텍스트 길이**를 처리  
  - **에이전트 코딩, 비전, 대화, 장문 문맥 작업**에서 높은 성능을 보임  
- **35B와 27B 모델**은 **22GB RAM** 환경의 Mac에서도 실행 가능  
- 모든 GGUF 파일은 **개선된 양자화 알고리듬**과 **새로운 imatrix 데이터**를 사용  
  - 채팅, 코딩, 장문 문맥, 도구 호출(tool-calling)에서 성능 향상  
  - MXFP4 계층은 일부 GGUF(Q2_K_XL, Q3_K_XL, Q4_K_XL)에서 제거  

### 하드웨어 요구사항
- 표에 따르면 모델 크기별 최소 메모리 요구량이 명시됨  
  - 예: 0.8B~2B 모델은 3GB, 9B는 5.5GB(3-bit 기준), 35B-A3B는 17GB 필요  
  - 397B-A17B는 3-bit 기준 180GB, 4-bit 기준 214GB 필요  
- **총 메모리(RAM+VRAM)** 가 모델 파일 크기보다 커야 최적 성능 확보  
  - 부족할 경우 SSD/HDD 오프로딩으로 실행 가능하나 속도 저하 발생  
- 27B는 정확도 우선, 35B-A3B는 속도 우선 선택  

### 권장 설정값
- **최대 컨텍스트 윈도우:** 262,144 (YaRN으로 1M까지 확장 가능)  
- **presence_penalty:** 0.0~2.0 (반복 감소용, 높을수록 성능 약간 저하 가능)  
- **출력 길이:** 32,768 토큰 권장  
- **Thinking 모드**와 **Non-thinking 모드**에 따라 설정값이 다름  
  - Thinking 모드: 일반 작업은 temperature=1.0, 코딩은 0.6  
  - Non-thinking 모드: 일반 작업은 temperature=0.7, 추론 작업은 1.0  
- **소형 모델(0.8B~9B)** 은 기본적으로 reasoning 비활성화  
  - 활성화 시 `--chat-template-kwargs '{"enable_thinking":true}'` 사용  

### 실행 및 추론 튜토리얼
- 모든 모델은 **Dynamic 4-bit MXFP4_MOE GGUF** 버전으로 제공  
- **llama.cpp**를 이용한 로컬 추론 절차  
  - GitHub에서 최신 버전 설치 후, `-DGGML_CUDA` 옵션으로 GPU/CPU 선택  
  - Hugging Face에서 모델 다운로드 (`hf download unsloth/Qwen3.5-XXB-GGUF`)  
  - `llama-cli` 또는 `llama-server` 명령으로 실행  
- **LM Studio**에서도 실행 가능  
  - 모델 검색 후 GGUF 다운로드, YAML 파일로 **Thinking 토글** 활성화  
  - 재시작 후 토글 기능 사용 가능  

### 모델별 실행 요약
- **Qwen3.5-35B-A3B:** 24GB RAM/Mac에서 Dynamic 4-bit로 빠른 추론 가능  
- **Qwen3.5-27B:** 18GB RAM/Mac에서 실행 가능  
- **Qwen3.5-122B-A10B:** 70GB RAM/Mac 환경에서 동작  
- **Qwen3.5-397B-A17B:**  
  - 3-bit: 192GB RAM, 4-bit: 256GB RAM 필요  
  - 24GB GPU + 256GB RAM 조합 시 초당 25토큰 이상 생성  
  - Gemini 3 Pro, Claude Opus 4.5, GPT-5.2와 유사 성능급  

### 추론 서버 및 API 연동
- `llama-server`를 통해 **OpenAI 호환 API** 형태로 배포 가능  
  - `openai` Python 라이브러리로 로컬 서버에 요청 가능  
  - 예시: `"http://127.0.0.1:8001/v1"` 엔드포인트 사용  
- **Tool Calling** 기능 지원  
  - Python 코드 실행, 터미널 명령, 수학 연산 등 함수 호출 가능  
  - `unsloth_inference()` 예제 코드 제공  

### 벤치마크 결과
- **Unsloth GGUF 벤치마크**  
  - Qwen3.5-35B Dynamic quant가 대부분 비트 구간에서 **SOTA 성능**  
  - 150회 이상 KL Divergence 테스트, 총 9TB GGUF 데이터 사용  
  - **99.9% KLD**에서 Pareto Frontier 상의 최고 성능  
- **Qwen3.5-397B-A17B**  
  - Benjamin Marie의 제3자 테스트에서  
    - 원본 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%  
    - 정확도 하락 1포인트 미만, 메모리 절감 약 500GB  
  - Q3는 메모리 절약형, Q4는 안정형 선택지로 제시  

### 기타 기능
- **Reasoning 활성/비활성** 명령어 제공 (`--chat-template-kwargs`)  
- **Claude Code / OpenAI Codex**와 연동 가능  
- **Tool Calling Guide**를 통해 로컬 LLM 도구 호출 구성 가능  
- **Ollama 비호환**, llama.cpp 기반 백엔드만 지원  

---

## Comments



### Comment 52698

- Author: tensun
- Created: 2026-03-09T19:57:31+09:00
- Points: 1

hx370에서 27b쓰는데 결과가 괜챦습니다

### Comment 52625

- Author: neo
- Created: 2026-03-09T00:37:01+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47292522) 
- ASUS 5070ti 16G에서 **Qwen3.5 9B**를 lm studio로 돌려봤는데 약 100 tok/s로 매우 안정적으로 동작함  
  대부분의 온라인 LLM 서비스보다 빠르고, 출력 품질도 벤치마크 수준과 일치함  
  소비자용 하드웨어에서 이렇게 **실사용 가능한 모델**을 돌려본 건 처음임
  - “온라인 서비스보다 낫다”는 게 속도 기준인지, 아니면 모델 자체의 품질 비교인지 궁금함  
    Sonnet이나 Opus 같은 상위 모델과의 **사용성 비교**는 아닐 거라 생각함
  - 이 설정에서 **context 길이**와 성능이 어느 정도인지 궁금함  
    코딩 작업에는 최소 100k context가 필요함
  - 혹시 **Thinking mode** 문제 해결했는지?  
    나는 무한 루프가 걸려서 꺼버렸고, 여러 파라미터를 바꿔도 해결되지 않았음
  - Qwen3.5 27B를 4bit 양자화하면 16G VRAM에 들어감  
    품질은 2025년 여름의 Sonnet 4.0 수준이며, **ik_llama.cpp**에서는 속도도 매우 좋음
  - 혹시 **Claude Code**와 연동해서 쓰는지?  
    오케스트레이션이 꽤 중요해 보임

- “All uploads use Unsloth Dynamic 2.0”이라 되어 있는데, 실제 옵션에는 IQ4_XS, Q4_K_S, Q4_K_M 등 여러 가지가 있음  
  각각의 **트레이드오프 설명**이 없어서 혼란스러움  
  Mac mini M4 16GB에서 Qwen3-4B-Instruct-2507-Q4_K_M을 주로 쓰는데, Qwen3.5-4B-UD-Q4_K_XL은 훨씬 수다스러움  
  사용자별로 필요가 다르겠지만, **모델/하드웨어별 설정과 메모리 사용량을 정리한 표**가 있으면 좋겠음  
  Reddit에서도 구체적인 설정 예시는 거의 없음  
  최근 3개월간 이 주제를 계속 따라가고 있는데, 명확한 정보보다 혼란이 더 많음  
  현재는 qwen CLI의 coder-model을 클라우드에서 쓰며, **저전력 로컬 모델**이 나오길 기다리는 중임
  - [Unsloth Qwen3.5 GGUF 벤치마크](https://unsloth.ai/docs/models/qwen3.5/gguf-benchmarks)가 도움이 될 수 있음  
    Q4_K_XL과 Q4_K_M의 **디스크 공간 대비 KL Divergence** 비교가 있음  
    Q4_0, Q4_1은 속도는 빠르지만 정확도가 떨어져서 이제는 비추천임  
    Q4_K_M과 UD-Q4_K_XL은 거의 동일하며, _XL이 약간 큼
  - [LocalScore.ai](https://www.localscore.ai)는 Mozilla Builders가 만든 사이트로, 이런 모델/하드웨어 매핑을 목표로 함  
    하지만 아직 Qwen3.5 관련 데이터는 없음
  - Mac M1에서 **ollama**로 qwen3.5:4b를 돌려봤는데, 툴 호출은 괜찮았지만 속도가 느리고 복잡한 작업에서는 혼란스러움  
    Rust 코드를 다루는 게 원인일 수도 있음  
    6bit 양자화된 qwen3.5-35b-a3b를 4090에서 돌렸을 때는 꽤 좋은 결과였음  
    현재는 8bit qwen3.5-27b를 메인 엔진으로 쓰고 있고 만족스러움
  - [모델 양자화 선택 가이드](https://www.siquick.com/blog/model-quantization-fine-tuning-pick-right-gguf)도 참고할 만함

- 새로운 오픈 모델이 나올 때마다 **PP(프롬프트 처리)** 와 **TG(토큰 생성)** 속도를 llama-cpp/server로 테스트함  
  M1 Max 64GB MacBook에서 Claude Code 환경(15~30K context)으로 실험했음  
  Qwen3.5-30B-A3B는 Qwen3-30B-A3B보다 TG 속도가 절반 수준임  
  Qwen3.5는 **sliding window attention** 덕분에 RAM 사용량이 적고 응답 품질은 좋지만, 33k context에서는 속도가 느림  
  세부 설정은 [이 문서](https://pchalasani.github.io/claude-code-tools/integrations/local-llms/#qwen35-35b-a3b--smart-general-purpose-moe)에 정리되어 있음

- 개인 벤치마크에서 DeepSeek API를 기준으로 **Claude Opus**로 평가함  
  Qwen3.5 35B A3B(q8_0, thinking)는 92.5%, Q4_K_M(thinking)은 90% 수준임  
  27B dense 모델이 더 높을 줄 알았는데 의외였음  
  단, 이 수치는 **one-shot 응답 평가**라서 에이전트 반복 상황은 반영되지 않음
  - 35B A3B가 27B보다 높게 나온 건 흥미로움  
    프롬프트의 **논리적 불일치**가 27B의 추론을 방해했을 수도 있음  
    thinking trace를 보면 원인을 디버깅할 수 있을 듯함
  - latency를 거의 늘리지 않는 **thinking 모델**이 있는지도 궁금함

- Qwen3.5 9B를 CPU에서 **OCR 및 텍스트 정리**용으로 돌려봤는데 꽤 쓸 만함  
  다만 GPU 오프로딩이 제대로 안 되어 VRAM 4GB의 1650 Ti에서는 메모리 초과가 발생함
  - 나도 같은 문제를 겪었는데, **드라이버 업데이트**로 해결했음  
    `sudo apt install nvidia-driver-570` 명령으로 가능했음
  - 1660ti + cachyos + llama.cpp-cuda 조합에서는 잘 작동함  
    35B 모델이 4B 모델과 비슷한 속도로 동작하면서 훨씬 강력함  
    다만 qwen3.5는 qwen3보다 **속도가 절반 수준**임  
    그래도 전반적으로 만족스러움
  - 소스 빌드 시에는 **Vulkan 백엔드**가 GPU 오프로딩에 가장 간단함

- Qwen3.5:0.8b를 **Orangepi Zero 2w**에서 CPU만으로 잘 돌리고 있음  
  Vulkan GPU를 쓰고 싶을 땐 Meta Quest 3에서 qwen3.5:2b를 zeroclaw로 실행함  
  덕분에 저전력 환경에서 수백 달러를 절약했음  
  **중고 안드로이드폰**으로 로컬 모델을 돌려보는 걸 추천함

- 9B 모델을 **호스팅 형태로 제공**하는 곳이 있는지 궁금함  
  GPU 임대가 어려운 비즈니스 환경이라 OpenRouter에는 작은 모델이 없음  
  runpod serverless 템플릿이 생기면 좋겠음  
  9B 모델이 4090에서 8bit나 6bit로 **저지연 실행** 가능한지도 알고 싶음

- RTX 3050 8GB에서 **Qwen3.5 35B-A3B**를 돌려봤는데 꽤 반응성이 좋고 코딩 작업도 잘 처리함  
  이전 버전은 툴 사용 중 루프에 빠지는 문제가 있었는데, 새 버전에서 수정된 듯함
  - 시스템 RAM으로 **오프로딩**하는지 궁금함  
    tok/s 수치도 알고 싶음  
    RTX 3060 노트북에서도 로컬 서버로 잘 될 것 같음
  - 어떤 **코딩 작업 예시**를 돌려봤는지 궁금함  
    로컬 모델이 그렇게 잘할 줄은 몰랐음
  - 사용한 **모델 이름**을 구체적으로 알려줄 수 있는지 궁금함

- 397B-A17B 모델이 **Frontier**와 비교해 어떤지 궁금함  
  아마 대부분의 사람은 돌릴 수 없을 정도의 하드웨어가 필요할 듯함
  - OpenRouter를 통해 사용해봤는데, 매우 좋지만 일부 작업에서는 Frontier가 여전히 더 뛰어남  
    개인적으로는 122B 모델이 **프라이버시와 비용 절감** 측면에서 충분히 만족스러움

- 오래된 **4xV100 Tesla** 서버에서 이 모델이 돌아갈지 궁금함  
  fp 관련 설정이 복잡해서 초보자 입장에서는 이해가 어려움
