15P by GN⁺ 1일전 | ★ favorite | 댓글 2개
  • Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
  • Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
  • 생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
  • 각 모델별로 필요한 RAM/VRAM 용량권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
  • Unsloth GGUF는 향상된 양자화 알고리듬imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환

Qwen3.5 개요

  • Qwen3.5는 Alibaba가 공개한 새로운 LLM 시리즈로, 0.8B·2B·4B·9B(소형)부터 27B·35B·122B·397B(대형)까지 포함
    • 멀티모달 하이브리드 추론을 지원하며, 201개 언어256K 컨텍스트 길이를 처리
    • 에이전트 코딩, 비전, 대화, 장문 문맥 작업에서 높은 성능을 보임
  • 35B와 27B 모델22GB RAM 환경의 Mac에서도 실행 가능
  • 모든 GGUF 파일은 개선된 양자화 알고리듬새로운 imatrix 데이터를 사용
    • 채팅, 코딩, 장문 문맥, 도구 호출(tool-calling)에서 성능 향상
    • MXFP4 계층은 일부 GGUF(Q2_K_XL, Q3_K_XL, Q4_K_XL)에서 제거

하드웨어 요구사항

  • 표에 따르면 모델 크기별 최소 메모리 요구량이 명시됨
    • 예: 0.8B~2B 모델은 3GB, 9B는 5.5GB(3-bit 기준), 35B-A3B는 17GB 필요
    • 397B-A17B는 3-bit 기준 180GB, 4-bit 기준 214GB 필요
  • 총 메모리(RAM+VRAM) 가 모델 파일 크기보다 커야 최적 성능 확보
    • 부족할 경우 SSD/HDD 오프로딩으로 실행 가능하나 속도 저하 발생
  • 27B는 정확도 우선, 35B-A3B는 속도 우선 선택

권장 설정값

  • 최대 컨텍스트 윈도우: 262,144 (YaRN으로 1M까지 확장 가능)
  • presence_penalty: 0.0~2.0 (반복 감소용, 높을수록 성능 약간 저하 가능)
  • 출력 길이: 32,768 토큰 권장
  • Thinking 모드Non-thinking 모드에 따라 설정값이 다름
    • Thinking 모드: 일반 작업은 temperature=1.0, 코딩은 0.6
    • Non-thinking 모드: 일반 작업은 temperature=0.7, 추론 작업은 1.0
  • 소형 모델(0.8B~9B) 은 기본적으로 reasoning 비활성화
    • 활성화 시 --chat-template-kwargs '{"enable_thinking":true}' 사용

실행 및 추론 튜토리얼

  • 모든 모델은 Dynamic 4-bit MXFP4_MOE GGUF 버전으로 제공
  • llama.cpp를 이용한 로컬 추론 절차
    • GitHub에서 최신 버전 설치 후, -DGGML_CUDA 옵션으로 GPU/CPU 선택
    • Hugging Face에서 모델 다운로드 (hf download unsloth/Qwen3.5-XXB-GGUF)
    • llama-cli 또는 llama-server 명령으로 실행
  • LM Studio에서도 실행 가능
    • 모델 검색 후 GGUF 다운로드, YAML 파일로 Thinking 토글 활성화
    • 재시작 후 토글 기능 사용 가능

모델별 실행 요약

  • Qwen3.5-35B-A3B: 24GB RAM/Mac에서 Dynamic 4-bit로 빠른 추론 가능
  • Qwen3.5-27B: 18GB RAM/Mac에서 실행 가능
  • Qwen3.5-122B-A10B: 70GB RAM/Mac 환경에서 동작
  • Qwen3.5-397B-A17B:
    • 3-bit: 192GB RAM, 4-bit: 256GB RAM 필요
    • 24GB GPU + 256GB RAM 조합 시 초당 25토큰 이상 생성
    • Gemini 3 Pro, Claude Opus 4.5, GPT-5.2와 유사 성능급

추론 서버 및 API 연동

  • llama-server를 통해 OpenAI 호환 API 형태로 배포 가능
  • Tool Calling 기능 지원
    • Python 코드 실행, 터미널 명령, 수학 연산 등 함수 호출 가능
    • unsloth_inference() 예제 코드 제공

벤치마크 결과

  • Unsloth GGUF 벤치마크
    • Qwen3.5-35B Dynamic quant가 대부분 비트 구간에서 SOTA 성능
    • 150회 이상 KL Divergence 테스트, 총 9TB GGUF 데이터 사용
    • 99.9% KLD에서 Pareto Frontier 상의 최고 성능
  • Qwen3.5-397B-A17B
    • Benjamin Marie의 제3자 테스트에서
      • 원본 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • 정확도 하락 1포인트 미만, 메모리 절감 약 500GB
    • Q3는 메모리 절약형, Q4는 안정형 선택지로 제시

기타 기능

  • Reasoning 활성/비활성 명령어 제공 (--chat-template-kwargs)
  • Claude Code / OpenAI Codex와 연동 가능
  • Tool Calling Guide를 통해 로컬 LLM 도구 호출 구성 가능
  • Ollama 비호환, llama.cpp 기반 백엔드만 지원

hx370에서 27b쓰는데 결과가 괜챦습니다

Hacker News 의견들
  • ASUS 5070ti 16G에서 Qwen3.5 9B를 lm studio로 돌려봤는데 약 100 tok/s로 매우 안정적으로 동작함
    대부분의 온라인 LLM 서비스보다 빠르고, 출력 품질도 벤치마크 수준과 일치함
    소비자용 하드웨어에서 이렇게 실사용 가능한 모델을 돌려본 건 처음임

    • “온라인 서비스보다 낫다”는 게 속도 기준인지, 아니면 모델 자체의 품질 비교인지 궁금함
      Sonnet이나 Opus 같은 상위 모델과의 사용성 비교는 아닐 거라 생각함
    • 이 설정에서 context 길이와 성능이 어느 정도인지 궁금함
      코딩 작업에는 최소 100k context가 필요함
    • 혹시 Thinking mode 문제 해결했는지?
      나는 무한 루프가 걸려서 꺼버렸고, 여러 파라미터를 바꿔도 해결되지 않았음
    • Qwen3.5 27B를 4bit 양자화하면 16G VRAM에 들어감
      품질은 2025년 여름의 Sonnet 4.0 수준이며, ik_llama.cpp에서는 속도도 매우 좋음
    • 혹시 Claude Code와 연동해서 쓰는지?
      오케스트레이션이 꽤 중요해 보임
  • “All uploads use Unsloth Dynamic 2.0”이라 되어 있는데, 실제 옵션에는 IQ4_XS, Q4_K_S, Q4_K_M 등 여러 가지가 있음
    각각의 트레이드오프 설명이 없어서 혼란스러움
    Mac mini M4 16GB에서 Qwen3-4B-Instruct-2507-Q4_K_M을 주로 쓰는데, Qwen3.5-4B-UD-Q4_K_XL은 훨씬 수다스러움
    사용자별로 필요가 다르겠지만, 모델/하드웨어별 설정과 메모리 사용량을 정리한 표가 있으면 좋겠음
    Reddit에서도 구체적인 설정 예시는 거의 없음
    최근 3개월간 이 주제를 계속 따라가고 있는데, 명확한 정보보다 혼란이 더 많음
    현재는 qwen CLI의 coder-model을 클라우드에서 쓰며, 저전력 로컬 모델이 나오길 기다리는 중임

    • Unsloth Qwen3.5 GGUF 벤치마크가 도움이 될 수 있음
      Q4_K_XL과 Q4_K_M의 디스크 공간 대비 KL Divergence 비교가 있음
      Q4_0, Q4_1은 속도는 빠르지만 정확도가 떨어져서 이제는 비추천임
      Q4_K_M과 UD-Q4_K_XL은 거의 동일하며, _XL이 약간 큼
    • LocalScore.ai는 Mozilla Builders가 만든 사이트로, 이런 모델/하드웨어 매핑을 목표로 함
      하지만 아직 Qwen3.5 관련 데이터는 없음
    • Mac M1에서 ollama로 qwen3.5:4b를 돌려봤는데, 툴 호출은 괜찮았지만 속도가 느리고 복잡한 작업에서는 혼란스러움
      Rust 코드를 다루는 게 원인일 수도 있음
      6bit 양자화된 qwen3.5-35b-a3b를 4090에서 돌렸을 때는 꽤 좋은 결과였음
      현재는 8bit qwen3.5-27b를 메인 엔진으로 쓰고 있고 만족스러움
    • 모델 양자화 선택 가이드도 참고할 만함
  • 새로운 오픈 모델이 나올 때마다 PP(프롬프트 처리)TG(토큰 생성) 속도를 llama-cpp/server로 테스트함
    M1 Max 64GB MacBook에서 Claude Code 환경(15~30K context)으로 실험했음
    Qwen3.5-30B-A3B는 Qwen3-30B-A3B보다 TG 속도가 절반 수준임
    Qwen3.5는 sliding window attention 덕분에 RAM 사용량이 적고 응답 품질은 좋지만, 33k context에서는 속도가 느림
    세부 설정은 이 문서에 정리되어 있음

  • 개인 벤치마크에서 DeepSeek API를 기준으로 Claude Opus로 평가함
    Qwen3.5 35B A3B(q8_0, thinking)는 92.5%, Q4_K_M(thinking)은 90% 수준임
    27B dense 모델이 더 높을 줄 알았는데 의외였음
    단, 이 수치는 one-shot 응답 평가라서 에이전트 반복 상황은 반영되지 않음

    • 35B A3B가 27B보다 높게 나온 건 흥미로움
      프롬프트의 논리적 불일치가 27B의 추론을 방해했을 수도 있음
      thinking trace를 보면 원인을 디버깅할 수 있을 듯함
    • latency를 거의 늘리지 않는 thinking 모델이 있는지도 궁금함
  • Qwen3.5 9B를 CPU에서 OCR 및 텍스트 정리용으로 돌려봤는데 꽤 쓸 만함
    다만 GPU 오프로딩이 제대로 안 되어 VRAM 4GB의 1650 Ti에서는 메모리 초과가 발생함

    • 나도 같은 문제를 겪었는데, 드라이버 업데이트로 해결했음
      sudo apt install nvidia-driver-570 명령으로 가능했음
    • 1660ti + cachyos + llama.cpp-cuda 조합에서는 잘 작동함
      35B 모델이 4B 모델과 비슷한 속도로 동작하면서 훨씬 강력함
      다만 qwen3.5는 qwen3보다 속도가 절반 수준
      그래도 전반적으로 만족스러움
    • 소스 빌드 시에는 Vulkan 백엔드가 GPU 오프로딩에 가장 간단함
  • Qwen3.5:0.8b를 Orangepi Zero 2w에서 CPU만으로 잘 돌리고 있음
    Vulkan GPU를 쓰고 싶을 땐 Meta Quest 3에서 qwen3.5:2b를 zeroclaw로 실행함
    덕분에 저전력 환경에서 수백 달러를 절약했음
    중고 안드로이드폰으로 로컬 모델을 돌려보는 걸 추천함

  • 9B 모델을 호스팅 형태로 제공하는 곳이 있는지 궁금함
    GPU 임대가 어려운 비즈니스 환경이라 OpenRouter에는 작은 모델이 없음
    runpod serverless 템플릿이 생기면 좋겠음
    9B 모델이 4090에서 8bit나 6bit로 저지연 실행 가능한지도 알고 싶음

  • RTX 3050 8GB에서 Qwen3.5 35B-A3B를 돌려봤는데 꽤 반응성이 좋고 코딩 작업도 잘 처리함
    이전 버전은 툴 사용 중 루프에 빠지는 문제가 있었는데, 새 버전에서 수정된 듯함

    • 시스템 RAM으로 오프로딩하는지 궁금함
      tok/s 수치도 알고 싶음
      RTX 3060 노트북에서도 로컬 서버로 잘 될 것 같음
    • 어떤 코딩 작업 예시를 돌려봤는지 궁금함
      로컬 모델이 그렇게 잘할 줄은 몰랐음
    • 사용한 모델 이름을 구체적으로 알려줄 수 있는지 궁금함
  • 397B-A17B 모델이 Frontier와 비교해 어떤지 궁금함
    아마 대부분의 사람은 돌릴 수 없을 정도의 하드웨어가 필요할 듯함

    • OpenRouter를 통해 사용해봤는데, 매우 좋지만 일부 작업에서는 Frontier가 여전히 더 뛰어남
      개인적으로는 122B 모델이 프라이버시와 비용 절감 측면에서 충분히 만족스러움
  • 오래된 4xV100 Tesla 서버에서 이 모델이 돌아갈지 궁금함
    fp 관련 설정이 복잡해서 초보자 입장에서는 이해가 어려움