1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 Apache 2.0 오픈소스 라이선스로 공개됨
  • 이 모델들은 OpenAI GPT-5-miniAnthropic Claude Sonnet 4.5를 능가하는 벤치마크 성능을 보이며, 로컬 GPU 환경에서도 고성능 실행 가능
  • 4비트 양자화(quantization) 로 정확도를 거의 유지하면서도 1백만 토큰 이상의 컨텍스트 윈도우를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능
  • Gated Delta NetworksMixture-of-Experts(MoE) 구조를 결합해 효율성을 높였으며, ‘Thinking Mode’ 를 통해 내부 추론 과정을 거친 후 답변 생성
  • 기업은 이를 통해 프라이버시 보호형 온프레미스 AI 구축이 가능하며, 고비용 클라우드 의존 없이 자율형 에이전트 개발을 실현할 수 있음

Qwen3.5-Medium 모델 개요

  • 알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 에이전트 도구 호출(agentic tool calling) 을 지원하는 네 가지 LLM로 구성
    • 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
    • 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)
  • 세 가지 오픈소스 모델은 Hugging FaceModelScope에서 다운로드 가능
  • Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 운영 비용이 낮음

성능 및 기술 구조

  • Qwen3.5 모델은 OpenAI GPT-5-miniClaude Sonnet 4.5를 벤치마크에서 능가
  • 양자화(quantization) 후에도 높은 정확도를 유지하며, 로컬 GPU(32GB VRAM) 환경에서 100만 토큰 이상의 컨텍스트 윈도우 지원
  • 4비트 가중치 및 KV 캐시 양자화로 손실 없는 정확도와 대규모 데이터 처리 가능
  • 하이브리드 아키텍처: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
    • 총 350억 파라미터 중 3억 개만 활성화
    • MoE 계층은 256개 전문가(8개 라우팅 + 1개 공유) 로 구성
    • 4비트 압축 시에도 정확도 유지, 로컬 배포 시 메모리 절감
  • 연구 지원을 위해 Qwen3.5-35B-A3B-Base 모델도 함께 공개

제품 구성 및 기능

  • Thinking Mode: 모델이 답변 전 <think> 태그로 내부 추론 과정을 생성
  • 모델별 특징
    • Qwen3.5-27B: 효율성 중심, 80만 토큰 이상 컨텍스트 지원
    • Qwen3.5-Flash: 100만 토큰 기본 컨텍스트, 공식 도구 내장
    • Qwen3.5-122B-A10B: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원
  • 벤치마크 결과: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 지식(MMMLU)시각 추론(MMMU-Pro) 항목에서 우수

가격 및 API 통합

  • Qwen3.5-Flash API 요금
    • 입력: $0.1 / 100만 토큰
    • 출력: $0.4 / 100만 토큰
    • 캐시 생성: $0.125 / 100만 토큰
    • 캐시 읽기: $0.01 / 100만 토큰
  • 도구 호출 요금제: Web Search $10/1,000회, Code Interpreter 무료(한시적)
  • 주요 LLM과 비교 시 가장 저렴한 API 중 하나
    • 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5

기업 활용 및 의미

  • Qwen3.5-Medium 공개로 대규모 연구소 수준의 모델 미세조정 및 배포가 일반 기업에도 가능
  • 온프레미스 환경에서 대용량 문서·영상 분석 수행 가능, 데이터 프라이버시 강화
  • Mixture-of-Experts 구조를 사내 방화벽 내에서 실행해 데이터 주권 유지
  • Thinking ModeTool Calling 기능을 활용해 자율형 AI 에이전트 구축 가능
  • 초기 사용자들은 “대형 폐쇄형 모델과의 격차를 좁혔다”고 평가
  • 효율성 중심 설계로 AI 통합의 비용 절감·보안 강화·운영 민첩성 확보 가능
Hacker News 의견들
  • 오픈소스 모델들은 대부분 벤치마크 최적화 게임을 하고 있음
    새로 공개되는 모델마다 몇 달 전 SOTA 수준이라고 홍보하지만 실제 사용해보면 실망스러운 경우가 많음
    Qwen3-Coder-Next와 Qwen3.5를 써봤는데, Sonnet 4.5 수준에는 못 미침
    다만 목표를 명확히 제시하고 테스트를 통해 제약을 주면 끈질기게 시도하며 결국 문제를 해결하긴 함
    그래도 오픈소스 모델로서는 인상적이며, self-hosted 환경에서 이 정도가 가능하다는 건 놀라운 일임
    하지만 Sonnet 4.5급이라는 과대광고는 믿지 말아야 함

    • 내 경험상 일부 오픈소스 모델은 정말 강력하고 실용적
      특히 StepFun-3.5-flash는 복잡한 Rust 코드베이스에서도 훌륭히 작동함
      나는 StepFun과 아무 관련이 없지만, 196B/11B 구조로 이런 성능을 낸 팀에 깊은 존경을 보냄
    • “지난 세대” 모델들이 여전히 오픈소스보다 낫긴 하지만, GLM-5 같은 모델은 패턴 매칭 능력을 잘 포착한 듯함
      모델 간 경쟁을 시키는 GertLabs 벤치마크는 조작이 어려워서 꽤 신뢰할 만함
    • 사실 이런 벤치마크 최적화는 모든 모델이 하는 일임
      오히려 클라우드 모델들이 런타임까지 조정할 수 있어서 더 심할 수도 있음
    • 나는 Qwen 3.5 27B를 4090에서 돌리고 있는데, 로컬 모델에서 이렇게 코딩 성능이 뛰어난 건 처음 봄
      이전엔 거의 쓸 수 없었는데 이번엔 진짜 놀라움
    • 최신 오프라인/프라이빗 코딩 벤치마크가 있는지 궁금했는데, Apex Testing이 꽤 괜찮아 보임
      표준 문제와 다른 테스트라면 과최적화에도 강할 듯함
  • MBP M3 Max 128G에서 로컬 모델을 돌려보며 성능을 비교 중임
    Opus 4.6과 Gemini Pro는 빠르고 정확했지만, qwen3.5:35b-a3b는 45분 동안 돌아가며 부정확한 답을 냈음
    팬 소음이 심해 비행기 이륙 수준이었음
    이렇게 느린 모델로 대규모 코드베이스를 다루는 게 가능한지 의문임

    • 사실 100B 파라미터짜리 오픈모델을 노트북에서 돌리는 건 한계가 있음
      클라우드 모델은 1T 이상 파라미터에 수백만 달러짜리 GPU로 구동되기 때문임
      로컬 코딩은 “안드로이드 앱 보일러플레이트 생성” 정도가 현실적인 수준임
    • Opus와 Gemini는 수백만 달러급 H200급 GPU에서 돌아감
      로컬 모델은 여전히 두 세대 전 성능 수준이며, Sonnet 4.5급이라면 Opus 4.6과는 큰 차이가 있음
    • 업계는 “큰 모델이 항상 낫다”는 논리적 오류에 빠져 있음
      사실 좁은 문제에 특화된 작은 모델이 더 잘 작동할 수 있음
      우리 팀은 코딩에만 집중하는 소형 모델을 M2 16GB에서 돌리고 있으며, Sonnet 4.5보다 낫다고 생각함
      곧 rig.ai 베타를 공개할 예정임
    • MacBook은 열 제약이 심해서 장시간 작업에 부적합함
      서버에서도 팬 속도를 100%로 고정하면 GPU 성능이 30% 향상됨
      로컬 모델은 가벼운 작업에 적합하고, 무거운 건 클라우드에서 처리하는 게 효율적임
    • qwen3.5-35b-a3b는 컨텍스트가 짧을 때 추론에 시간을 많이 쓰는 경향이 있음
      긴 시스템 프롬프트나 파일 내용을 주면 훨씬 효율적이라는 보고가 있음
  • M1 MacBook Pro에서 llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M 양자화)를 세팅하는 가이드를 작성했음
    설치가 꽤 까다로웠지만 최신 모델에도 적용 가능함
    설치 가이드 링크

    • LM Studio를 쓰면 한 번의 검색과 클릭으로 설치 가능하며, OpenAI 호환 API로 노출됨
    • Ryzen 32GB 데스크탑에서도 같은 세팅을 했는데, Qwen이 가장 인상적이었음
      MoE 구조 덕분에 추론 속도도 빠름
      Q4_K_M 양자화를 선택했는데, 이게 최적의 선택인지 궁금함
    • 16GB 램에서도 쓸만한 로컬 모델이 나오길 기다리고 있음
    • M1에서의 실행 속도가 어느 정도인지 궁금함
  • LLM 내부를 공부하기 시작했는데, float32가 너무 관대한 정밀도라는 걸 깨달음
    블로그를 통해 양자화를 배우고 Claude에게 1~8비트 양자화의 정확도를 분석하게 했음
    4비트가 99% 유사도로 거의 손실이 없으면서도 8비트의 절반 크기라 sweet spot처럼 보였음
    실제 전문가들도 4비트를 쓰는 걸 보니 흥미로움

    • 최신 NVIDIA 하드웨어에서는 4비트 학습도 지원됨
      GPT-OSS 모델은 MXFP4 형식으로 훈련되었음
      OCP 표준화 문서, MX 포맷 스펙
    • 3진수(ternary) 모델 연구도 흥미로움
      연산이 매우 빠르고 캐시 효율이 높아 탐구할 가치가 있음
    • 관련 자료를 더 배우고 싶은데, 참고할 만한 리소스가 있는지 궁금함
    • 1%의 정밀도 차이가 실제로 어떤 인지적 효과를 내는지 감이 안 잡힘
      시스템이 너무 블랙박스라 직관적으로 파악하기 어려움
  • Qwen3.5 122B를 LM Studio와 Opencode로 돌려봤는데 꽤 인상적이었음
    M4 Max/128GB 환경에서도 느리지 않고, Claude Code 수준의 코드 분석력을 보여줌
    완전 로컬 대안이 이렇게 발전한 게 놀라움

  • 오픈모델들이 점점 좋아지고 있지만 아직 Sonnet 4.5 수준은 아님
    좁은 도메인에서는 훌륭하지만, 모호한 문제를 해결하는 데는 약함
    Qwen 3.5가 지금까지 써본 OSS 중 최고였고, 점점 진짜 지능을 보이기 시작함
    RTX 6000 Pro에서 무료로 돌리지만, Composer 1.5를 더 자주 씀
    그래도 올해 안에 로컬 GPT 5.2급 모델이 나올 거라 기대함

  • 과장된 주장들이 많음
    실제로 써본 사람은 드물고, 현실적인 기준이 부족한 경우가 많음
    예전엔 “몇 K 토큰 이상은 못 쓴다”는 단서가 항상 붙었음

    • Qwen 3.5 122B/a10B(q3, unsloth dynamic quant)로 RPN 계산기 웹앱을 만들었는데, 로컬 모델 중 처음으로 완전 작동함
      다른 모델들은 스택 구현이 틀리거나 UI가 엉망이었음
      Claude Sonnet 4.6도 이 문제를 제대로 풀었지만 그 외엔 거의 실패함
    • Qwen3-Coder-30B-A3B-Instruct는 IDE 통합이나 작은 함수 단위 작업엔 좋지만, 대규모 기능 구현에는 한계가 있음
    • 35B 모델로 Polars 기반 PCA 구현을 10분 만에 완성했음
      예전엔 항상 pandas 코드를 환각하던 모델들이었는데, 이건 큰 진전임
  • SWE 차트에 Claude가 빠져 있는 게 눈에 띔
    데이터를 의도적으로 조작한 듯한 인상을 줌
    이런 태도만으로도 신뢰를 잃게 됨

  • 로컬에서 직접 돌려볼 날이 기대됨
    미국 서비스 의존도를 줄이고 싶음

  • 유럽에서 오픈모델을 테스트할 수 있는 서비스가 있는지 궁금함

    • Koyeb은 Mistral에 인수된 후 GPU를 분 단위로 임대할 수 있고, 원클릭으로 모델 배포도 가능함