# 알리바바의 오픈소스 Qwen3.5-Medium 모델, 로컬에서 Sonnet 4.5 수준 성능 제공

> Clean Markdown view of GeekNews topic #27111. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27111](https://news.hada.io/topic?id=27111)
- GeekNews Markdown: [https://news.hada.io/topic/27111.md](https://news.hada.io/topic/27111.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-02T04:33:12+09:00
- Updated: 2026-03-02T04:33:12+09:00
- Original source: [venturebeat.com](https://venturebeat.com/technology/alibabas-new-open-source-qwen3-5-medium-models-offer-sonnet-4-5-performance)
- Points: 22
- Comments: 4

## Summary

알리바바가 공개한 **Qwen3.5-Medium** 시리즈는 35B·122B·27B 등 세 가지 **Apache 2.0 오픈소스 LLM**으로, 로컬 GPU에서도 **Sonnet 4.5 수준의 성능**을 구현합니다. 4비트 양자화와 **Mixture-of-Experts 구조**를 결합해 정확도를 유지하면서도 100만 토큰 이상의 컨텍스트를 처리할 수 있으습니다. 로컬에서 Sonnet 4.x 대 수준의 성능 제공이 너무 빨리 왔네요. 중요한 플래닝만 상용서비스에 시키고, 나머지는 로컬에서 처리하는 하이브리드 방식도 점점 좋아질 것 같습니다.

## Topic Body

- **Qwen3.5 시리즈**는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 **Apache 2.0 오픈소스 라이선스**로 공개  
- **OpenAI GPT-5-mini**와 **Anthropic Claude Sonnet 4.5**를 능가하는 벤치마크 성능을 보이며, **로컬 GPU 환경에서도 고성능 실행** 가능  
- **4비트 양자화(quantization)** 로 정확도를 거의 유지하면서도 **1백만 토큰 이상의 컨텍스트 윈도우**를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능  
- **Gated Delta Networks**와 **Mixture-of-Experts(MoE)** 구조를 결합해 효율성을 높였으며, **‘Thinking Mode’** 를 통해 내부 추론 과정을 거친 후 답변 생성  
- 기업은 이를 통해 **프라이버시 보호형 온프레미스 AI 구축**이 가능하며, 고비용 클라우드 의존 없이 **자율형 에이전트 개발**을 실현할 수 있음  
  
---  
  
### Qwen3.5-Medium 모델 개요  
- 알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 **에이전트 도구 호출(agentic tool calling)** 을 지원하는 네 가지 LLM로 구성  
  - 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B  
  - 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)  
- 세 가지 오픈소스 모델은 **Hugging Face**와 **ModelScope**에서 다운로드 가능  
- Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 **운영 비용이 낮음**  
  
### 성능 및 기술 구조  
- Qwen3.5 모델은 **OpenAI GPT-5-mini**와 **Claude Sonnet 4.5**를 벤치마크에서 능가  
- **양자화(quantization)** 후에도 높은 정확도를 유지하며, **로컬 GPU(32GB VRAM)** 환경에서 **100만 토큰 이상의 컨텍스트 윈도우** 지원  
- **4비트 가중치 및 KV 캐시 양자화**로 손실 없는 정확도와 대규모 데이터 처리 가능  
- **하이브리드 아키텍처**: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)  
  - 총 350억 파라미터 중 **3억 개만 활성화**  
  - MoE 계층은 **256개 전문가(8개 라우팅 + 1개 공유)** 로 구성  
  - **4비트 압축 시에도 정확도 유지**, 로컬 배포 시 메모리 절감  
- 연구 지원을 위해 **Qwen3.5-35B-A3B-Base** 모델도 함께 공개  
  
### 제품 구성 및 기능  
- **Thinking Mode**: 모델이 답변 전 `` 태그로 내부 추론 과정을 생성  
- 모델별 특징  
  - **Qwen3.5-27B**: 효율성 중심, 80만 토큰 이상 컨텍스트 지원  
  - **Qwen3.5-Flash**: 100만 토큰 기본 컨텍스트, 공식 도구 내장  
  - **Qwen3.5-122B-A10B**: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원  
- **벤치마크 결과**: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 **지식(MMMLU)** 및 **시각 추론(MMMU-Pro)** 항목에서 우수  
  
### 가격 및 API 통합  
- **Qwen3.5-Flash API 요금**  
  - 입력: $0.1 / 100만 토큰  
  - 출력: $0.4 / 100만 토큰  
  - 캐시 생성: $0.125 / 100만 토큰  
  - 캐시 읽기: $0.01 / 100만 토큰  
- **도구 호출 요금제**: Web Search $10/1,000회, Code Interpreter 무료(한시적)  
- 주요 LLM과 비교 시 **가장 저렴한 API 중 하나**  
  - 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5  
  
### 기업 활용 및 의미  
- Qwen3.5-Medium 공개로 **대규모 연구소 수준의 모델 미세조정 및 배포**가 일반 기업에도 가능  
- **온프레미스 환경에서 대용량 문서·영상 분석** 수행 가능, **데이터 프라이버시 강화**  
- **Mixture-of-Experts 구조**를 사내 방화벽 내에서 실행해 **데이터 주권 유지**  
- **Thinking Mode**와 **Tool Calling** 기능을 활용해 **자율형 AI 에이전트 구축** 가능  
- 초기 사용자들은 “대형 폐쇄형 모델과의 격차를 좁혔다”고 평가  
- **효율성 중심 설계**로 AI 통합의 **비용 절감·보안 강화·운영 민첩성 확보** 가능

## Comments


### Comment 52163

- Author: chcv0313
- Created: 2026-03-02T11:14:13+09:00
- Points: 1

RTX Pro 6000(96GB, 실질적으로 94GB) 을 보유중인데, ollama 로 122B 모델이 안올라갑니다. 비전 모델이라서 비전 트랜스포머 들어있는 부분 때문인가 합니다. GPT OSS 120b 모델은 넉넉하게 올라간ㄴ데말이죠

### Comment 52167

- Author: ng0301
- Created: 2026-03-02T13:06:43+09:00
- Points: 1
- Parent comment: 52163
- Depth: 1

맞아요.. 비전 인코더 사용되면 1B모델도 9G VRAM 먹더라구요

### Comment 52162

- Author: kensin2
- Created: 2026-03-02T10:52:45+09:00
- Points: 1

cuda 기반의 llama.cpp 서버로 돌려야 성능 나옵니다.

### Comment 52152

- Author: neo
- Created: 2026-03-02T04:33:13+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47199781) 
- 오픈소스 모델들은 대부분 **벤치마크 최적화 게임**을 하고 있음  
  새로 공개되는 모델마다 몇 달 전 SOTA 수준이라고 홍보하지만 실제 사용해보면 실망스러운 경우가 많음  
  Qwen3-Coder-Next와 Qwen3.5를 써봤는데, Sonnet 4.5 수준에는 못 미침  
  다만 목표를 명확히 제시하고 테스트를 통해 제약을 주면 끈질기게 시도하며 결국 문제를 해결하긴 함  
  그래도 오픈소스 모델로서는 인상적이며, **self-hosted 환경**에서 이 정도가 가능하다는 건 놀라운 일임  
  하지만 Sonnet 4.5급이라는 과대광고는 믿지 말아야 함
  - 내 경험상 일부 오픈소스 모델은 정말 **강력하고 실용적**임  
    특히 [StepFun-3.5-flash](https://github.com/stepfun-ai/Step-3.5-Flash)는 복잡한 Rust 코드베이스에서도 훌륭히 작동함  
    나는 StepFun과 아무 관련이 없지만, 196B/11B 구조로 이런 성능을 낸 팀에 깊은 존경을 보냄
  - “지난 세대” 모델들이 여전히 오픈소스보다 낫긴 하지만, GLM-5 같은 모델은 패턴 매칭 능력을 잘 포착한 듯함  
    모델 간 경쟁을 시키는 [GertLabs 벤치마크](https://gertlabs.com)는 조작이 어려워서 꽤 신뢰할 만함
  - 사실 이런 벤치마크 최적화는 **모든 모델**이 하는 일임  
    오히려 클라우드 모델들이 런타임까지 조정할 수 있어서 더 심할 수도 있음
  - 나는 Qwen 3.5 27B를 4090에서 돌리고 있는데, 로컬 모델에서 이렇게 **코딩 성능**이 뛰어난 건 처음 봄  
    이전엔 거의 쓸 수 없었는데 이번엔 진짜 놀라움
  - 최신 **오프라인/프라이빗 코딩 벤치마크**가 있는지 궁금했는데, [Apex Testing](https://www.apex-testing.org/)이 꽤 괜찮아 보임  
    표준 문제와 다른 테스트라면 과최적화에도 강할 듯함

- MBP M3 Max 128G에서 로컬 모델을 돌려보며 성능을 비교 중임  
  Opus 4.6과 Gemini Pro는 빠르고 정확했지만, qwen3.5:35b-a3b는 45분 동안 돌아가며 부정확한 답을 냈음  
  팬 소음이 심해 비행기 이륙 수준이었음  
  이렇게 느린 모델로 **대규모 코드베이스**를 다루는 게 가능한지 의문임
  - 사실 100B 파라미터짜리 오픈모델을 노트북에서 돌리는 건 한계가 있음  
    클라우드 모델은 1T 이상 파라미터에 수백만 달러짜리 GPU로 구동되기 때문임  
    로컬 코딩은 “안드로이드 앱 보일러플레이트 생성” 정도가 현실적인 수준임
  - Opus와 Gemini는 수백만 달러급 H200급 GPU에서 돌아감  
    로컬 모델은 여전히 **두 세대 전 성능** 수준이며, Sonnet 4.5급이라면 Opus 4.6과는 큰 차이가 있음
  - 업계는 “큰 모델이 항상 낫다”는 **논리적 오류**에 빠져 있음  
    사실 좁은 문제에 특화된 작은 모델이 더 잘 작동할 수 있음  
    우리 팀은 코딩에만 집중하는 소형 모델을 M2 16GB에서 돌리고 있으며, Sonnet 4.5보다 낫다고 생각함  
    곧 rig.ai 베타를 공개할 예정임
  - MacBook은 **열 제약**이 심해서 장시간 작업에 부적합함  
    서버에서도 팬 속도를 100%로 고정하면 GPU 성능이 30% 향상됨  
    로컬 모델은 가벼운 작업에 적합하고, 무거운 건 클라우드에서 처리하는 게 효율적임
  - qwen3.5-35b-a3b는 **컨텍스트가 짧을 때** 추론에 시간을 많이 쓰는 경향이 있음  
    긴 시스템 프롬프트나 파일 내용을 주면 훨씬 효율적이라는 보고가 있음

- M1 MacBook Pro에서 llama.cpp, OpenCode, Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M 양자화)를 세팅하는 가이드를 작성했음  
  설치가 꽤 까다로웠지만 최신 모델에도 적용 가능함  
  [설치 가이드 링크](https://gist.github.com/alexpotato/5b76989c24593962898294038b5b835b)
  - LM Studio를 쓰면 **한 번의 검색과 클릭**으로 설치 가능하며, OpenAI 호환 API로 노출됨
  - Ryzen 32GB 데스크탑에서도 같은 세팅을 했는데, Qwen이 가장 인상적이었음  
    MoE 구조 덕분에 추론 속도도 빠름  
    Q4_K_M 양자화를 선택했는데, 이게 최적의 선택인지 궁금함
  - 16GB 램에서도 쓸만한 로컬 모델이 나오길 기다리고 있음
  - M1에서의 **실행 속도**가 어느 정도인지 궁금함

- LLM 내부를 공부하기 시작했는데, float32가 너무 **관대한 정밀도**라는 걸 깨달음  
  블로그를 통해 양자화를 배우고 Claude에게 1~8비트 양자화의 정확도를 분석하게 했음  
  4비트가 99% 유사도로 거의 손실이 없으면서도 8비트의 절반 크기라 **sweet spot**처럼 보였음  
  실제 전문가들도 4비트를 쓰는 걸 보니 흥미로움
  - 최신 NVIDIA 하드웨어에서는 **4비트 학습**도 지원됨  
    GPT-OSS 모델은 MXFP4 형식으로 훈련되었음  
    [OCP 표준화 문서](https://www.opencompute.org/blog/amd-arm-intel-meta-microsoft-nvidia-and-qualcomm-standardize-next-generation-narrow-precision-data-formats-for-ai), [MX 포맷 스펙](https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf)
  - **3진수(ternary) 모델** 연구도 흥미로움  
    연산이 매우 빠르고 캐시 효율이 높아 탐구할 가치가 있음
  - 관련 자료를 더 배우고 싶은데, 참고할 만한 리소스가 있는지 궁금함
  - 1%의 정밀도 차이가 실제로 어떤 **인지적 효과**를 내는지 감이 안 잡힘  
    시스템이 너무 블랙박스라 직관적으로 파악하기 어려움

- Qwen3.5 122B를 LM Studio와 Opencode로 돌려봤는데 꽤 인상적이었음  
  M4 Max/128GB 환경에서도 느리지 않고, **Claude Code 수준의 코드 분석력**을 보여줌  
  완전 로컬 대안이 이렇게 발전한 게 놀라움
- 오픈모델들이 점점 좋아지고 있지만 아직 Sonnet 4.5 수준은 아님  
  **좁은 도메인**에서는 훌륭하지만, 모호한 문제를 해결하는 데는 약함  
  Qwen 3.5가 지금까지 써본 OSS 중 최고였고, 점점 진짜 지능을 보이기 시작함  
  RTX 6000 Pro에서 무료로 돌리지만, Composer 1.5를 더 자주 씀  
  그래도 올해 안에 로컬 GPT 5.2급 모델이 나올 거라 기대함
- 과장된 주장들이 많음  
  실제로 써본 사람은 드물고, **현실적인 기준**이 부족한 경우가 많음  
  예전엔 “몇 K 토큰 이상은 못 쓴다”는 단서가 항상 붙었음
  - Qwen 3.5 122B/a10B(q3, unsloth dynamic quant)로 **RPN 계산기 웹앱**을 만들었는데, 로컬 모델 중 처음으로 완전 작동함  
    다른 모델들은 스택 구현이 틀리거나 UI가 엉망이었음  
    Claude Sonnet 4.6도 이 문제를 제대로 풀었지만 그 외엔 거의 실패함
  - Qwen3-Coder-30B-A3B-Instruct는 IDE 통합이나 작은 함수 단위 작업엔 좋지만, **대규모 기능 구현**에는 한계가 있음
  - 35B 모델로 **Polars 기반 PCA 구현**을 10분 만에 완성했음  
    예전엔 항상 pandas 코드를 환각하던 모델들이었는데, 이건 큰 진전임

- SWE 차트에 Claude가 빠져 있는 게 눈에 띔  
  데이터를 **의도적으로 조작한 듯한 인상**을 줌  
  이런 태도만으로도 신뢰를 잃게 됨
- 로컬에서 직접 돌려볼 날이 기대됨  
  미국 서비스 의존도를 줄이고 싶음
- 유럽에서 오픈모델을 테스트할 수 있는 서비스가 있는지 궁금함
  - [Koyeb](https://www.koyeb.com)은 Mistral에 인수된 후 GPU를 **분 단위로 임대**할 수 있고, 원클릭으로 모델 배포도 가능함