Qwen3.5 로컬 실행 가이드

▲

GN⁺ 2달전 | parent | ★ favorite | on: Qwen3.5 로컬 실행 가이드(unsloth.ai)

Hacker News 의견들

ASUS 5070ti 16G에서 Qwen3.5 9B를 lm studio로 돌려봤는데 약 100 tok/s로 매우 안정적으로 동작함
대부분의 온라인 LLM 서비스보다 빠르고, 출력 품질도 벤치마크 수준과 일치함
소비자용 하드웨어에서 이렇게 실사용 가능한 모델을 돌려본 건 처음임
- “온라인 서비스보다 낫다”는 게 속도 기준인지, 아니면 모델 자체의 품질 비교인지 궁금함
  Sonnet이나 Opus 같은 상위 모델과의 사용성 비교는 아닐 거라 생각함
- 이 설정에서 context 길이와 성능이 어느 정도인지 궁금함
  코딩 작업에는 최소 100k context가 필요함
- 혹시 Thinking mode 문제 해결했는지?
  나는 무한 루프가 걸려서 꺼버렸고, 여러 파라미터를 바꿔도 해결되지 않았음
- Qwen3.5 27B를 4bit 양자화하면 16G VRAM에 들어감
  품질은 2025년 여름의 Sonnet 4.0 수준이며, ik_llama.cpp에서는 속도도 매우 좋음
- 혹시 Claude Code와 연동해서 쓰는지?
  오케스트레이션이 꽤 중요해 보임
“All uploads use Unsloth Dynamic 2.0”이라 되어 있는데, 실제 옵션에는 IQ4_XS, Q4_K_S, Q4_K_M 등 여러 가지가 있음
각각의 트레이드오프 설명이 없어서 혼란스러움
Mac mini M4 16GB에서 Qwen3-4B-Instruct-2507-Q4_K_M을 주로 쓰는데, Qwen3.5-4B-UD-Q4_K_XL은 훨씬 수다스러움
사용자별로 필요가 다르겠지만, 모델/하드웨어별 설정과 메모리 사용량을 정리한 표가 있으면 좋겠음
Reddit에서도 구체적인 설정 예시는 거의 없음
최근 3개월간 이 주제를 계속 따라가고 있는데, 명확한 정보보다 혼란이 더 많음
현재는 qwen CLI의 coder-model을 클라우드에서 쓰며, 저전력 로컬 모델이 나오길 기다리는 중임
- Unsloth Qwen3.5 GGUF 벤치마크가 도움이 될 수 있음
  Q4_K_XL과 Q4_K_M의 디스크 공간 대비 KL Divergence 비교가 있음
  Q4_0, Q4_1은 속도는 빠르지만 정확도가 떨어져서 이제는 비추천임
  Q4_K_M과 UD-Q4_K_XL은 거의 동일하며, _XL이 약간 큼
- LocalScore.ai는 Mozilla Builders가 만든 사이트로, 이런 모델/하드웨어 매핑을 목표로 함
  하지만 아직 Qwen3.5 관련 데이터는 없음
- Mac M1에서 ollama로 qwen3.5:4b를 돌려봤는데, 툴 호출은 괜찮았지만 속도가 느리고 복잡한 작업에서는 혼란스러움
  Rust 코드를 다루는 게 원인일 수도 있음
  6bit 양자화된 qwen3.5-35b-a3b를 4090에서 돌렸을 때는 꽤 좋은 결과였음
  현재는 8bit qwen3.5-27b를 메인 엔진으로 쓰고 있고 만족스러움
- 모델 양자화 선택 가이드도 참고할 만함
새로운 오픈 모델이 나올 때마다 PP(프롬프트 처리) 와 TG(토큰 생성) 속도를 llama-cpp/server로 테스트함
M1 Max 64GB MacBook에서 Claude Code 환경(15~30K context)으로 실험했음
Qwen3.5-30B-A3B는 Qwen3-30B-A3B보다 TG 속도가 절반 수준임
Qwen3.5는 sliding window attention 덕분에 RAM 사용량이 적고 응답 품질은 좋지만, 33k context에서는 속도가 느림
세부 설정은 이 문서에 정리되어 있음
개인 벤치마크에서 DeepSeek API를 기준으로 Claude Opus로 평가함
Qwen3.5 35B A3B(q8_0, thinking)는 92.5%, Q4_K_M(thinking)은 90% 수준임
27B dense 모델이 더 높을 줄 알았는데 의외였음
단, 이 수치는 one-shot 응답 평가라서 에이전트 반복 상황은 반영되지 않음
- 35B A3B가 27B보다 높게 나온 건 흥미로움
  프롬프트의 논리적 불일치가 27B의 추론을 방해했을 수도 있음
  thinking trace를 보면 원인을 디버깅할 수 있을 듯함
- latency를 거의 늘리지 않는 thinking 모델이 있는지도 궁금함
Qwen3.5 9B를 CPU에서 OCR 및 텍스트 정리용으로 돌려봤는데 꽤 쓸 만함
다만 GPU 오프로딩이 제대로 안 되어 VRAM 4GB의 1650 Ti에서는 메모리 초과가 발생함
- 나도 같은 문제를 겪었는데, 드라이버 업데이트로 해결했음
  sudo apt install nvidia-driver-570 명령으로 가능했음
- 1660ti + cachyos + llama.cpp-cuda 조합에서는 잘 작동함
  35B 모델이 4B 모델과 비슷한 속도로 동작하면서 훨씬 강력함
  다만 qwen3.5는 qwen3보다 속도가 절반 수준임
  그래도 전반적으로 만족스러움
- 소스 빌드 시에는 Vulkan 백엔드가 GPU 오프로딩에 가장 간단함
Qwen3.5:0.8b를 Orangepi Zero 2w에서 CPU만으로 잘 돌리고 있음
Vulkan GPU를 쓰고 싶을 땐 Meta Quest 3에서 qwen3.5:2b를 zeroclaw로 실행함
덕분에 저전력 환경에서 수백 달러를 절약했음
중고 안드로이드폰으로 로컬 모델을 돌려보는 걸 추천함
9B 모델을 호스팅 형태로 제공하는 곳이 있는지 궁금함
GPU 임대가 어려운 비즈니스 환경이라 OpenRouter에는 작은 모델이 없음
runpod serverless 템플릿이 생기면 좋겠음
9B 모델이 4090에서 8bit나 6bit로 저지연 실행 가능한지도 알고 싶음
RTX 3050 8GB에서 Qwen3.5 35B-A3B를 돌려봤는데 꽤 반응성이 좋고 코딩 작업도 잘 처리함
이전 버전은 툴 사용 중 루프에 빠지는 문제가 있었는데, 새 버전에서 수정된 듯함
- 시스템 RAM으로 오프로딩하는지 궁금함
  tok/s 수치도 알고 싶음
  RTX 3060 노트북에서도 로컬 서버로 잘 될 것 같음
- 어떤 코딩 작업 예시를 돌려봤는지 궁금함
  로컬 모델이 그렇게 잘할 줄은 몰랐음
- 사용한 모델 이름을 구체적으로 알려줄 수 있는지 궁금함
397B-A17B 모델이 Frontier와 비교해 어떤지 궁금함
아마 대부분의 사람은 돌릴 수 없을 정도의 하드웨어가 필요할 듯함
- OpenRouter를 통해 사용해봤는데, 매우 좋지만 일부 작업에서는 Frontier가 여전히 더 뛰어남
  개인적으로는 122B 모델이 프라이버시와 비용 절감 측면에서 충분히 만족스러움
오래된 4xV100 Tesla 서버에서 이 모델이 돌아갈지 궁금함
fp 관련 설정이 복잡해서 초보자 입장에서는 이해가 어려움