알리바바 오픈소스 Qwen3.5-Medium 모델, 로컬 환경에서 Sonnet 4.5 수준 성능 제공
(venturebeat.com)- Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 Apache 2.0 오픈소스 라이선스로 공개됨
- 이 모델들은 OpenAI GPT-5-mini와 Anthropic Claude Sonnet 4.5를 능가하는 벤치마크 성능을 보이며, 로컬 GPU 환경에서도 고성능 실행 가능
- 4비트 양자화(quantization) 로 정확도를 거의 유지하면서도 1백만 토큰 이상의 컨텍스트 윈도우를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능
- Gated Delta Networks와 Mixture-of-Experts(MoE) 구조를 결합해 효율성을 높였으며, ‘Thinking Mode’ 를 통해 내부 추론 과정을 거친 후 답변 생성
- 기업은 이를 통해 프라이버시 보호형 온프레미스 AI 구축이 가능하며, 고비용 클라우드 의존 없이 자율형 에이전트 개발을 실현할 수 있음
Qwen3.5-Medium 모델 개요
- 알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 에이전트 도구 호출(agentic tool calling) 을 지원하는 네 가지 LLM로 구성
- 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)
- 세 가지 오픈소스 모델은 Hugging Face와 ModelScope에서 다운로드 가능
- Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 운영 비용이 낮음
성능 및 기술 구조
- Qwen3.5 모델은 OpenAI GPT-5-mini와 Claude Sonnet 4.5를 벤치마크에서 능가
- 양자화(quantization) 후에도 높은 정확도를 유지하며, 로컬 GPU(32GB VRAM) 환경에서 100만 토큰 이상의 컨텍스트 윈도우 지원
- 4비트 가중치 및 KV 캐시 양자화로 손실 없는 정확도와 대규모 데이터 처리 가능
-
하이브리드 아키텍처: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- 총 350억 파라미터 중 3억 개만 활성화
- MoE 계층은 256개 전문가(8개 라우팅 + 1개 공유) 로 구성
- 4비트 압축 시에도 정확도 유지, 로컬 배포 시 메모리 절감
- 연구 지원을 위해 Qwen3.5-35B-A3B-Base 모델도 함께 공개
제품 구성 및 기능
-
Thinking Mode: 모델이 답변 전
<think>태그로 내부 추론 과정을 생성 - 모델별 특징
- Qwen3.5-27B: 효율성 중심, 80만 토큰 이상 컨텍스트 지원
- Qwen3.5-Flash: 100만 토큰 기본 컨텍스트, 공식 도구 내장
- Qwen3.5-122B-A10B: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원
- 벤치마크 결과: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 지식(MMMLU) 및 시각 추론(MMMU-Pro) 항목에서 우수
가격 및 API 통합
-
Qwen3.5-Flash API 요금
- 입력: $0.1 / 100만 토큰
- 출력: $0.4 / 100만 토큰
- 캐시 생성: $0.125 / 100만 토큰
- 캐시 읽기: $0.01 / 100만 토큰
- 도구 호출 요금제: Web Search $10/1,000회, Code Interpreter 무료(한시적)
- 주요 LLM과 비교 시 가장 저렴한 API 중 하나
- 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5
기업 활용 및 의미
- Qwen3.5-Medium 공개로 대규모 연구소 수준의 모델 미세조정 및 배포가 일반 기업에도 가능
- 온프레미스 환경에서 대용량 문서·영상 분석 수행 가능, 데이터 프라이버시 강화
- Mixture-of-Experts 구조를 사내 방화벽 내에서 실행해 데이터 주권 유지
- Thinking Mode와 Tool Calling 기능을 활용해 자율형 AI 에이전트 구축 가능
- 초기 사용자들은 “대형 폐쇄형 모델과의 격차를 좁혔다”고 평가
- 효율성 중심 설계로 AI 통합의 비용 절감·보안 강화·운영 민첩성 확보 가능
Hacker News 의견들
-
오픈소스 모델들은 대부분 벤치마크 최적화 게임을 하고 있음
새로 공개되는 모델마다 몇 달 전 SOTA 수준이라고 홍보하지만 실제 사용해보면 실망스러운 경우가 많음
Qwen3-Coder-Next와 Qwen3.5를 써봤는데, Sonnet 4.5 수준에는 못 미침
다만 목표를 명확히 제시하고 테스트를 통해 제약을 주면 끈질기게 시도하며 결국 문제를 해결하긴 함
그래도 오픈소스 모델로서는 인상적이며, self-hosted 환경에서 이 정도가 가능하다는 건 놀라운 일임
하지만 Sonnet 4.5급이라는 과대광고는 믿지 말아야 함- 내 경험상 일부 오픈소스 모델은 정말 강력하고 실용적임
특히 StepFun-3.5-flash는 복잡한 Rust 코드베이스에서도 훌륭히 작동함
나는 StepFun과 아무 관련이 없지만, 196B/11B 구조로 이런 성능을 낸 팀에 깊은 존경을 보냄 - “지난 세대” 모델들이 여전히 오픈소스보다 낫긴 하지만, GLM-5 같은 모델은 패턴 매칭 능력을 잘 포착한 듯함
모델 간 경쟁을 시키는 GertLabs 벤치마크는 조작이 어려워서 꽤 신뢰할 만함 - 사실 이런 벤치마크 최적화는 모든 모델이 하는 일임
오히려 클라우드 모델들이 런타임까지 조정할 수 있어서 더 심할 수도 있음 - 나는 Qwen 3.5 27B를 4090에서 돌리고 있는데, 로컬 모델에서 이렇게 코딩 성능이 뛰어난 건 처음 봄
이전엔 거의 쓸 수 없었는데 이번엔 진짜 놀라움 - 최신 오프라인/프라이빗 코딩 벤치마크가 있는지 궁금했는데, Apex Testing이 꽤 괜찮아 보임
표준 문제와 다른 테스트라면 과최적화에도 강할 듯함
- 내 경험상 일부 오픈소스 모델은 정말 강력하고 실용적임
-
MBP M3 Max 128G에서 로컬 모델을 돌려보며 성능을 비교 중임
Opus 4.6과 Gemini Pro는 빠르고 정확했지만, qwen3.5:35b-a3b는 45분 동안 돌아가며 부정확한 답을 냈음
팬 소음이 심해 비행기 이륙 수준이었음
이렇게 느린 모델로 대규모 코드베이스를 다루는 게 가능한지 의문임- 사실 100B 파라미터짜리 오픈모델을 노트북에서 돌리는 건 한계가 있음
클라우드 모델은 1T 이상 파라미터에 수백만 달러짜리 GPU로 구동되기 때문임
로컬 코딩은 “안드로이드 앱 보일러플레이트 생성” 정도가 현실적인 수준임 - Opus와 Gemini는 수백만 달러급 H200급 GPU에서 돌아감
로컬 모델은 여전히 두 세대 전 성능 수준이며, Sonnet 4.5급이라면 Opus 4.6과는 큰 차이가 있음 - 업계는 “큰 모델이 항상 낫다”는 논리적 오류에 빠져 있음
사실 좁은 문제에 특화된 작은 모델이 더 잘 작동할 수 있음
우리 팀은 코딩에만 집중하는 소형 모델을 M2 16GB에서 돌리고 있으며, Sonnet 4.5보다 낫다고 생각함
곧 rig.ai 베타를 공개할 예정임 - MacBook은 열 제약이 심해서 장시간 작업에 부적합함
서버에서도 팬 속도를 100%로 고정하면 GPU 성능이 30% 향상됨
로컬 모델은 가벼운 작업에 적합하고, 무거운 건 클라우드에서 처리하는 게 효율적임 - qwen3.5-35b-a3b는 컨텍스트가 짧을 때 추론에 시간을 많이 쓰는 경향이 있음
긴 시스템 프롬프트나 파일 내용을 주면 훨씬 효율적이라는 보고가 있음
- 사실 100B 파라미터짜리 오픈모델을 노트북에서 돌리는 건 한계가 있음
-
M1 MacBook Pro에서 llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M 양자화)를 세팅하는 가이드를 작성했음
설치가 꽤 까다로웠지만 최신 모델에도 적용 가능함
설치 가이드 링크- LM Studio를 쓰면 한 번의 검색과 클릭으로 설치 가능하며, OpenAI 호환 API로 노출됨
- Ryzen 32GB 데스크탑에서도 같은 세팅을 했는데, Qwen이 가장 인상적이었음
MoE 구조 덕분에 추론 속도도 빠름
Q4_K_M 양자화를 선택했는데, 이게 최적의 선택인지 궁금함 - 16GB 램에서도 쓸만한 로컬 모델이 나오길 기다리고 있음
- M1에서의 실행 속도가 어느 정도인지 궁금함
-
LLM 내부를 공부하기 시작했는데, float32가 너무 관대한 정밀도라는 걸 깨달음
블로그를 통해 양자화를 배우고 Claude에게 1~8비트 양자화의 정확도를 분석하게 했음
4비트가 99% 유사도로 거의 손실이 없으면서도 8비트의 절반 크기라 sweet spot처럼 보였음
실제 전문가들도 4비트를 쓰는 걸 보니 흥미로움- 최신 NVIDIA 하드웨어에서는 4비트 학습도 지원됨
GPT-OSS 모델은 MXFP4 형식으로 훈련되었음
OCP 표준화 문서, MX 포맷 스펙 -
3진수(ternary) 모델 연구도 흥미로움
연산이 매우 빠르고 캐시 효율이 높아 탐구할 가치가 있음 - 관련 자료를 더 배우고 싶은데, 참고할 만한 리소스가 있는지 궁금함
- 1%의 정밀도 차이가 실제로 어떤 인지적 효과를 내는지 감이 안 잡힘
시스템이 너무 블랙박스라 직관적으로 파악하기 어려움
- 최신 NVIDIA 하드웨어에서는 4비트 학습도 지원됨
-
Qwen3.5 122B를 LM Studio와 Opencode로 돌려봤는데 꽤 인상적이었음
M4 Max/128GB 환경에서도 느리지 않고, Claude Code 수준의 코드 분석력을 보여줌
완전 로컬 대안이 이렇게 발전한 게 놀라움 -
오픈모델들이 점점 좋아지고 있지만 아직 Sonnet 4.5 수준은 아님
좁은 도메인에서는 훌륭하지만, 모호한 문제를 해결하는 데는 약함
Qwen 3.5가 지금까지 써본 OSS 중 최고였고, 점점 진짜 지능을 보이기 시작함
RTX 6000 Pro에서 무료로 돌리지만, Composer 1.5를 더 자주 씀
그래도 올해 안에 로컬 GPT 5.2급 모델이 나올 거라 기대함 -
과장된 주장들이 많음
실제로 써본 사람은 드물고, 현실적인 기준이 부족한 경우가 많음
예전엔 “몇 K 토큰 이상은 못 쓴다”는 단서가 항상 붙었음- Qwen 3.5 122B/a10B(q3, unsloth dynamic quant)로 RPN 계산기 웹앱을 만들었는데, 로컬 모델 중 처음으로 완전 작동함
다른 모델들은 스택 구현이 틀리거나 UI가 엉망이었음
Claude Sonnet 4.6도 이 문제를 제대로 풀었지만 그 외엔 거의 실패함 - Qwen3-Coder-30B-A3B-Instruct는 IDE 통합이나 작은 함수 단위 작업엔 좋지만, 대규모 기능 구현에는 한계가 있음
- 35B 모델로 Polars 기반 PCA 구현을 10분 만에 완성했음
예전엔 항상 pandas 코드를 환각하던 모델들이었는데, 이건 큰 진전임
- Qwen 3.5 122B/a10B(q3, unsloth dynamic quant)로 RPN 계산기 웹앱을 만들었는데, 로컬 모델 중 처음으로 완전 작동함
-
SWE 차트에 Claude가 빠져 있는 게 눈에 띔
데이터를 의도적으로 조작한 듯한 인상을 줌
이런 태도만으로도 신뢰를 잃게 됨 -
로컬에서 직접 돌려볼 날이 기대됨
미국 서비스 의존도를 줄이고 싶음 -
유럽에서 오픈모델을 테스트할 수 있는 서비스가 있는지 궁금함
- Koyeb은 Mistral에 인수된 후 GPU를 분 단위로 임대할 수 있고, 원클릭으로 모델 배포도 가능함