알리바바의 오픈소스 Qwen3.5-Medium 모델, 로컬에서 Sonnet 4.5 수준 성능 제공

(venturebeat.com)

22P by GN⁺ 3달전 | ★ favorite | 댓글 4개

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 Apache 2.0 오픈소스 라이선스로 공개
OpenAI GPT-5-mini와 Anthropic Claude Sonnet 4.5를 능가하는 벤치마크 성능을 보이며, 로컬 GPU 환경에서도 고성능 실행 가능
4비트 양자화(quantization) 로 정확도를 거의 유지하면서도 1백만 토큰 이상의 컨텍스트 윈도우를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능
Gated Delta Networks와 Mixture-of-Experts(MoE) 구조를 결합해 효율성을 높였으며, ‘Thinking Mode’ 를 통해 내부 추론 과정을 거친 후 답변 생성
기업은 이를 통해 프라이버시 보호형 온프레미스 AI 구축이 가능하며, 고비용 클라우드 의존 없이 자율형 에이전트 개발을 실현할 수 있음

Qwen3.5-Medium 모델 개요

알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 에이전트 도구 호출(agentic tool calling) 을 지원하는 네 가지 LLM로 구성
- 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)
세 가지 오픈소스 모델은 Hugging Face와 ModelScope에서 다운로드 가능
Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 운영 비용이 낮음

성능 및 기술 구조

Qwen3.5 모델은 OpenAI GPT-5-mini와 Claude Sonnet 4.5를 벤치마크에서 능가
양자화(quantization) 후에도 높은 정확도를 유지하며, 로컬 GPU(32GB VRAM) 환경에서 100만 토큰 이상의 컨텍스트 윈도우 지원
4비트 가중치 및 KV 캐시 양자화로 손실 없는 정확도와 대규모 데이터 처리 가능
하이브리드 아키텍처: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- 총 350억 파라미터 중 3억 개만 활성화
- MoE 계층은 256개 전문가(8개 라우팅 + 1개 공유) 로 구성
- 4비트 압축 시에도 정확도 유지, 로컬 배포 시 메모리 절감
연구 지원을 위해 Qwen3.5-35B-A3B-Base 모델도 함께 공개

제품 구성 및 기능

Thinking Mode: 모델이 답변 전 `` 태그로 내부 추론 과정을 생성
모델별 특징
- Qwen3.5-27B: 효율성 중심, 80만 토큰 이상 컨텍스트 지원
- Qwen3.5-Flash: 100만 토큰 기본 컨텍스트, 공식 도구 내장
- Qwen3.5-122B-A10B: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원
벤치마크 결과: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 지식(MMMLU) 및 시각 추론(MMMU-Pro) 항목에서 우수

가격 및 API 통합

Qwen3.5-Flash API 요금
- 입력: $0.1 / 100만 토큰
- 출력: $0.4 / 100만 토큰
- 캐시 생성: $0.125 / 100만 토큰
- 캐시 읽기: $0.01 / 100만 토큰
도구 호출 요금제: Web Search $10/1,000회, Code Interpreter 무료(한시적)
주요 LLM과 비교 시 가장 저렴한 API 중 하나
- 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5

기업 활용 및 의미

Qwen3.5-Medium 공개로 대규모 연구소 수준의 모델 미세조정 및 배포가 일반 기업에도 가능
온프레미스 환경에서 대용량 문서·영상 분석 수행 가능, 데이터 프라이버시 강화
Mixture-of-Experts 구조를 사내 방화벽 내에서 실행해 데이터 주권 유지
Thinking Mode와 Tool Calling 기능을 활용해 자율형 AI 에이전트 구축 가능
초기 사용자들은 “대형 폐쇄형 모델과의 격차를 좁혔다”고 평가
효율성 중심 설계로 AI 통합의 비용 절감·보안 강화·운영 민첩성 확보 가능

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

chcv0313 3달전 [-]

RTX Pro 6000(96GB, 실질적으로 94GB) 을 보유중인데, ollama 로 122B 모델이 안올라갑니다. 비전 모델이라서 비전 트랜스포머 들어있는 부분 때문인가 합니다. GPT OSS 120b 모델은 넉넉하게 올라간ㄴ데말이죠

답변달기

ng0301 3달전 [-]

맞아요.. 비전 인코더 사용되면 1B모델도 9G VRAM 먹더라구요

답변달기

kensin2 3달전 [-]

cuda 기반의 llama.cpp 서버로 돌려야 성능 나옵니다.

답변달기

GN⁺ 3달전 [-]

Hacker News 의견들

오픈소스 모델들은 대부분 벤치마크 최적화 게임을 하고 있음
새로 공개되는 모델마다 몇 달 전 SOTA 수준이라고 홍보하지만 실제 사용해보면 실망스러운 경우가 많음
Qwen3-Coder-Next와 Qwen3.5를 써봤는데, Sonnet 4.5 수준에는 못 미침
다만 목표를 명확히 제시하고 테스트를 통해 제약을 주면 끈질기게 시도하며 결국 문제를 해결하긴 함
그래도 오픈소스 모델로서는 인상적이며, self-hosted 환경에서 이 정도가 가능하다는 건 놀라운 일임
하지만 Sonnet 4.5급이라는 과대광고는 믿지 말아야 함
- 내 경험상 일부 오픈소스 모델은 정말 강력하고 실용적임
  특히 StepFun-3.5-flash는 복잡한 Rust 코드베이스에서도 훌륭히 작동함
  나는 StepFun과 아무 관련이 없지만, 196B/11B 구조로 이런 성능을 낸 팀에 깊은 존경을 보냄
- “지난 세대” 모델들이 여전히 오픈소스보다 낫긴 하지만, GLM-5 같은 모델은 패턴 매칭 능력을 잘 포착한 듯함
  모델 간 경쟁을 시키는 GertLabs 벤치마크는 조작이 어려워서 꽤 신뢰할 만함
- 사실 이런 벤치마크 최적화는 모든 모델이 하는 일임
  오히려 클라우드 모델들이 런타임까지 조정할 수 있어서 더 심할 수도 있음
- 나는 Qwen 3.5 27B를 4090에서 돌리고 있는데, 로컬 모델에서 이렇게 코딩 성능이 뛰어난 건 처음 봄
  이전엔 거의 쓸 수 없었는데 이번엔 진짜 놀라움
- 최신 오프라인/프라이빗 코딩 벤치마크가 있는지 궁금했는데, Apex Testing이 꽤 괜찮아 보임
  표준 문제와 다른 테스트라면 과최적화에도 강할 듯함
MBP M3 Max 128G에서 로컬 모델을 돌려보며 성능을 비교 중임
Opus 4.6과 Gemini Pro는 빠르고 정확했지만, qwen3.5:35b-a3b는 45분 동안 돌아가며 부정확한 답을 냈음
팬 소음이 심해 비행기 이륙 수준이었음
이렇게 느린 모델로 대규모 코드베이스를 다루는 게 가능한지 의문임
- 사실 100B 파라미터짜리 오픈모델을 노트북에서 돌리는 건 한계가 있음
  클라우드 모델은 1T 이상 파라미터에 수백만 달러짜리 GPU로 구동되기 때문임
  로컬 코딩은 “안드로이드 앱 보일러플레이트 생성” 정도가 현실적인 수준임
- Opus와 Gemini는 수백만 달러급 H200급 GPU에서 돌아감
  로컬 모델은 여전히 두 세대 전 성능 수준이며, Sonnet 4.5급이라면 Opus 4.6과는 큰 차이가 있음
- 업계는 “큰 모델이 항상 낫다”는 논리적 오류에 빠져 있음
  사실 좁은 문제에 특화된 작은 모델이 더 잘 작동할 수 있음
  우리 팀은 코딩에만 집중하는 소형 모델을 M2 16GB에서 돌리고 있으며, Sonnet 4.5보다 낫다고 생각함
  곧 rig.ai 베타를 공개할 예정임
- MacBook은 열 제약이 심해서 장시간 작업에 부적합함
  서버에서도 팬 속도를 100%로 고정하면 GPU 성능이 30% 향상됨
  로컬 모델은 가벼운 작업에 적합하고, 무거운 건 클라우드에서 처리하는 게 효율적임
- qwen3.5-35b-a3b는 컨텍스트가 짧을 때 추론에 시간을 많이 쓰는 경향이 있음
  긴 시스템 프롬프트나 파일 내용을 주면 훨씬 효율적이라는 보고가 있음
M1 MacBook Pro에서 llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M 양자화)를 세팅하는 가이드를 작성했음
설치가 꽤 까다로웠지만 최신 모델에도 적용 가능함
설치 가이드 링크
- LM Studio를 쓰면 한 번의 검색과 클릭으로 설치 가능하며, OpenAI 호환 API로 노출됨
- Ryzen 32GB 데스크탑에서도 같은 세팅을 했는데, Qwen이 가장 인상적이었음
  MoE 구조 덕분에 추론 속도도 빠름
  Q4_K_M 양자화를 선택했는데, 이게 최적의 선택인지 궁금함
- 16GB 램에서도 쓸만한 로컬 모델이 나오길 기다리고 있음
- M1에서의 실행 속도가 어느 정도인지 궁금함
LLM 내부를 공부하기 시작했는데, float32가 너무 관대한 정밀도라는 걸 깨달음
블로그를 통해 양자화를 배우고 Claude에게 1~8비트 양자화의 정확도를 분석하게 했음
4비트가 99% 유사도로 거의 손실이 없으면서도 8비트의 절반 크기라 sweet spot처럼 보였음
실제 전문가들도 4비트를 쓰는 걸 보니 흥미로움
- 최신 NVIDIA 하드웨어에서는 4비트 학습도 지원됨
  GPT-OSS 모델은 MXFP4 형식으로 훈련되었음
  OCP 표준화 문서, MX 포맷 스펙
- 3진수(ternary) 모델 연구도 흥미로움
  연산이 매우 빠르고 캐시 효율이 높아 탐구할 가치가 있음
- 관련 자료를 더 배우고 싶은데, 참고할 만한 리소스가 있는지 궁금함
- 1%의 정밀도 차이가 실제로 어떤 인지적 효과를 내는지 감이 안 잡힘
  시스템이 너무 블랙박스라 직관적으로 파악하기 어려움
Qwen3.5 122B를 LM Studio와 Opencode로 돌려봤는데 꽤 인상적이었음
M4 Max/128GB 환경에서도 느리지 않고, Claude Code 수준의 코드 분석력을 보여줌
완전 로컬 대안이 이렇게 발전한 게 놀라움
오픈모델들이 점점 좋아지고 있지만 아직 Sonnet 4.5 수준은 아님
좁은 도메인에서는 훌륭하지만, 모호한 문제를 해결하는 데는 약함
Qwen 3.5가 지금까지 써본 OSS 중 최고였고, 점점 진짜 지능을 보이기 시작함
RTX 6000 Pro에서 무료로 돌리지만, Composer 1.5를 더 자주 씀
그래도 올해 안에 로컬 GPT 5.2급 모델이 나올 거라 기대함
과장된 주장들이 많음
실제로 써본 사람은 드물고, 현실적인 기준이 부족한 경우가 많음
예전엔 “몇 K 토큰 이상은 못 쓴다”는 단서가 항상 붙었음
- Qwen 3.5 122B/a10B(q3, unsloth dynamic quant)로 RPN 계산기 웹앱을 만들었는데, 로컬 모델 중 처음으로 완전 작동함
  다른 모델들은 스택 구현이 틀리거나 UI가 엉망이었음
  Claude Sonnet 4.6도 이 문제를 제대로 풀었지만 그 외엔 거의 실패함
- Qwen3-Coder-30B-A3B-Instruct는 IDE 통합이나 작은 함수 단위 작업엔 좋지만, 대규모 기능 구현에는 한계가 있음
- 35B 모델로 Polars 기반 PCA 구현을 10분 만에 완성했음
  예전엔 항상 pandas 코드를 환각하던 모델들이었는데, 이건 큰 진전임
SWE 차트에 Claude가 빠져 있는 게 눈에 띔
데이터를 의도적으로 조작한 듯한 인상을 줌
이런 태도만으로도 신뢰를 잃게 됨
로컬에서 직접 돌려볼 날이 기대됨
미국 서비스 의존도를 줄이고 싶음
유럽에서 오픈모델을 테스트할 수 있는 서비스가 있는지 궁금함
- Koyeb은 Mistral에 인수된 후 GPU를 분 단위로 임대할 수 있고, 원클릭으로 모델 배포도 가능함

답변달기

알리바바의 오픈소스 Qwen3.5-Medium 모델, 로컬에서 Sonnet 4.5 수준 성능 제공

Qwen3.5-Medium 모델 개요

성능 및 기술 구조

제품 구성 및 기능

가격 및 API 통합

기업 활용 및 의미

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들