# Qwen3-Max-Thinking 모델 공개

> Clean Markdown view of GeekNews topic #26153. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26153](https://news.hada.io/topic?id=26153)
- GeekNews Markdown: [https://news.hada.io/topic/26153.md](https://news.hada.io/topic/26153.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-27T09:54:02+09:00
- Updated: 2026-01-27T09:54:02+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3-max-thinking)
- Points: 7
- Comments: 1

## Summary

**Qwen3-Max-Thinking**은 대규모 강화학습과 파라미터 확장을 통해 **복잡한 추론과 인간 선호 정렬** 능력을 크게 높인 최신 추론 중심 모델입니다. 대화 중 자동으로 검색·메모리·코드 인터프리터를 호출하는 **적응형 도구 사용** 기능을 갖추어 환각을 줄이고 실시간 정보 접근을 지원합니다. 또한 **테스트 시점 확장(test-time scaling)** 전략으로 불필요한 반복 계산을 줄이며, 자기 반성 기반 경험 축적을 통해 효율적인 추론을 구현합니다. OpenAI 및 Anthropic API와 호환되어 기존 개발 워크플로에 손쉽게 통합할 수 있습니다.

## Topic Body

- 대규모 강화학습과 파라미터 확장을 통해 **사실 지식, 복잡한 추론, 인간 선호 정렬** 등 여러 영역에서 성능을 높인 최신 **추론 중심 모델**  
- 19개 벤치마크에서 **GPT-5.2-Thinking**, **Claude-Opus-4.5**, **Gemini 3 Pro** 등과 유사하거나 일부 영역에서 상회하는 결과를 기록  
- **적응형 도구 사용 기능**을 통해 대화 중 자동으로 검색, 메모리, 코드 인터프리터를 호출하며, **환각 감소와 실시간 정보 접근**을 지원  
- **테스트 시점 확장(test-time scaling)** 전략으로 추론 중 반복 계산을 줄이고, **자기 반성 기반 경험 축적 메커니즘**을 통해 효율 향상  
- Qwen Chat과 API를 통해 즉시 사용 가능하며, **OpenAI 및 Anthropic API와 호환**되어 개발자들이 기존 워크플로에 쉽게 통합 가능  
  
---  
  
### Qwen3-Max-Thinking 개요  
- **Qwen3-Max-Thinking**은 Qwen 시리즈의 최신 플래그십 **추론 모델**로, 강화학습과 대규모 연산 자원을 활용해 성능을 확장  
  - **사실 지식, 복잡한 추론, 지시 따르기, 인간 선호 정렬, 에이전트 기능** 등 여러 차원에서 개선  
  - 19개 표준 벤치마크에서 **GPT-5.2-Thinking**, **Claude-Opus-4.5**, **Gemini 3 Pro**와 유사한 수준의 성능 달성  
- 두 가지 주요 혁신으로 강화됨  
  - **적응형 도구 사용(adaptive tool-use)** : 필요 시 검색 및 코드 인터프리터를 자동 호출  
  - **고급 테스트 시점 확장(test-time scaling)** : 추론 중 추가 연산을 효율적으로 활용해 **Gemini 3 Pro**를 능가하는 성능 확보  
  
### 벤치마크 성능 요약  
- **지식(knowledge)** 영역에서는 MMLU-Pro 85.7, C-Eval 93.7 등으로 상위권 모델과 근접한 점수  
- **STEM** 분야에서는 GPQA 87.4, HLE 30.2로 일부 모델보다 낮지만 균형 잡힌 성능 유지  
- **추론(reasoning)** 벤치마크에서 HMMT Nov 25 94.7, LiveCodeBench v6 85.9 등 높은 수치 기록  
- **지시 따르기 및 정렬(instruction following & alignment)** 부문에서 Arena-Hard v2 90.2로 최고 수준  
- **도구 사용(tool use)** 과 **에이전트 검색(agentic search)** 에서도 경쟁 모델 대비 우수한 결과 일부 확인  
  
### 적응형 도구 사용 기능  
- 사용자가 직접 도구를 선택하지 않아도 모델이 **Search, Memory, Code Interpreter**를 자동 활용  
  - **Search**와 **Memory**는 환각을 줄이고 실시간 정보 접근 및 개인화된 응답 제공  
  - **Code Interpreter**는 코드 실행과 계산 기반 추론을 통해 복잡한 문제 해결 지원  
- 이러한 기능은 **규칙 기반 및 모델 기반 피드백**을 결합한 추가 학습 과정을 통해 강화됨  
- 결과적으로 자연스럽고 강력한 **대화형 경험** 제공  
  
### 테스트 시점 확장 전략  
- **추론 중 추가 연산을 분배**하여 성능을 높이는 방법으로, 단순 병렬 샘플링보다 효율적  
- 제안된 방식은 **경험 축적 기반 다중 라운드(self-reflective multi-round)** 접근을 사용  
  - “take-experience” 메커니즘을 통해 이전 라운드의 핵심 통찰을 추출  
  - 이미 도출된 결론을 반복하지 않고 **미해결 불확실성에 집중**  
- 동일한 토큰 소비로 더 높은 **문맥 효율성**을 달성  
  - GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3으로 향상  
  
### 개발 및 API 통합  
- **Qwen Chat**에서 즉시 사용 가능하며, 모델명은 `qwen3-max-2026-01-23`  
- **Alibaba Cloud Model Studio**를 통해 API 키 생성 후 사용 가능  
- **OpenAI API와 완전 호환**, Python 예시 코드 제공  
  - `enable_thinking` 옵션을 통해 추론 모드 활성화 가능  
- **Anthropic API 프로토콜**과도 호환되어 **Claude Code** 환경에서도 동일하게 작동  
  - 환경 변수 설정 후 `claude` 명령으로 실행 가능

## Comments


### Comment 49989

- Author: neo
- Created: 2026-01-27T09:54:02+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46766741) 
- 유명한 사진에 대한 질문이 있었는데, 시스템이 **‘부적절한 콘텐츠’** 로 감지해 오류를 반환했음. 사용자는 왜 이런 이미지가 국제적으로 중요한지 궁금해했음
  - 이건 별도의 **안전 메커니즘** 때문으로 보임. 실제로 Qwen의 이전 모델들은 중국 외부에서 서비스될 때는 천안문 관련 주제도 자유롭게 다뤘음. 예를 들어 Qwen3 235B A22B Instruct 2507은 ‘탱크맨’ 사진의 역사적 맥락과 중국 내 검열 상황까지 자세히 설명함. 이런 **검열 자체가 상징성을 더 강화**시켰다는 분석도 있었음
  - 중국 기업이라면 법적으로 검열을 따라야 하므로 놀랄 일은 아님. 다만 이런 제약이 **코딩 작업** 같은 비정치적 영역에 어떤 영향을 줄지가 궁금함. 사실 미국의 Anthropic도 불법 행위를 막기 위한 ‘정렬(Alignment)’ 형태의 제한을 두고 있음
  - 미국의 LLM들도 비슷한 **검열 문제**를 겪고 있음. 다만 검열 대상이 다를 뿐임
  - 연구자 중에 LLM의 **악성 행위 삽입(backdoor)** 가능성을 연구한 사람이 있는지 궁금함. 일부 논문에서는 소수의 악의적 예시만으로도 모델이 특정 ‘트리거’ 문구에 반응하도록 학습시킬 수 있다고 함. 심지어 토크나이저 파일을 조작해 **API 비용 증가나 안전 필터 약화** 같은 부작용을 유발할 수도 있음. 이런 논의가 필요한 시점이라 생각함
  - 이런 주제는 자주 논의를 탈선시키므로, 이제는 **중국 AI 모델의 기술적 측면**으로 대화를 돌리자는 의견도 있었음

- 요즘 모델들의 **토큰 사용량**이 궁금해짐. ‘추론 능력 향상’이나 ‘도구 활용 증가’는 모델 자체의 개선이라기보다, 더 많은 토큰을 써서 모델을 잘 유도하는 방식임. 즉 “적게 써서 더 얻는” 게 아니라 “더 써서 더 얻는” 구조임
  - 이런 점이 **AGI(인공 일반 지능)** 의 현실적 한계를 보여준다고 생각함. 계산 자원이 너무 많이 필요하면, 기술적 돌파가 있어도 실제 세상은 당분간 크게 변하지 않을 수 있음. 결국 **추론용 컴퓨팅 자원**이 병목이 될 가능성이 있음
  - Gemini에게 검색 대비 전력 소모를 물어봤는데, 의외로 **AI 검색이 전통 검색보다 효율적**이라고 답했음. 또 Perplexity에서 추천받은 arXiv 논문 중 Sara Hooker의 *On the Slow Death of Scaling*이 인상적이었음. 이 논문은 **작은 모델이 대형 모델을 능가**하는 사례를 보여주며, 향후 발전은 계산력보다 알고리즘 혁신에 달렸다고 주장함
  - 모델 발전을 평가할 **새로운 지표**가 필요하다고 느낌. 단순 벤치마크 점수보다 GPU 사용량, 속도, 비용 등을 함께 고려해야 함
  - 이런 효율성과 성능의 균형을 설명하는 개념으로 **Pareto frontier**가 적절하다는 의견이 있었음
  - 일부 모델은 **토큰 낭비가 심한 추론 과정**을 보여서, 실제로는 비효율적이라는 지적도 있었음

- 검색 기능이 꺼져 있을 때는 Opus 4.5보다 성능이 낮지만, 켜면 더 나은 이유가 뭘까 궁금했음. 혹시 **중국 인터넷의 콘텐츠 품질**이 더 좋은 걸까 생각함
  - 그건 과한 추론임. 단순히 **검색 성능과 통합 품질**이 더 좋을 가능성이 큼. 모델은 다국어를 지원하므로 전 세계 웹사이트를 잘 처리함
  - 나는 Kagi Assistant를 쓰는데, **학술 자료만 검색**하도록 필터링할 수 있어서 만족스러움. 다만 언젠가 학술 논문조차 AI 생성물로 오염될까 걱정됨. 그래도 결국 해결책을 찾게 될 거라 믿음
  - “아마 Reddit이 없어서 그런 걸지도?”라는 농담도 있었음

- Qwen 모델의 **가격 정책**이 궁금했음. Qwen Max와 같은 요금인지, 또 왜 중국 내 가격이 훨씬 싼지 물어봄  
  [Alibaba Cloud 모델 페이지](https://www.alibabacloud.com/help/en/model-studio/models?spm=a2ty_o06.30285417.0.0.1ef4c9219pMcnN#4c74a7d1841hr)
  - 중국 내에서는 **AI 가격 전쟁**이 치열하고, 정부가 **컴퓨팅 바우처와 보조금**을 통해 인프라 비용을 낮추고 있음.  
    [관련 기사](https://www.notebookcheck.net/China-expands-AI-subsidies-with-computing-power-vouchers-to-boost-SME-adoption.1104359.0.html)
  - 아마도 **국내 개발자 지원**을 위한 보조금일 가능성이 큼
  - 에너지 비용이 더 저렴한 것도 한 요인일 수 있음
  - 지역·검색 조건에 따라 가격이 달라지는 **감시형 가격 책정(surveillance pricing)** 개념을 소개하며, 관련 [영상 링크](https://youtube.com/shorts/vfIqzUrk40k?si=JQsFBtyKTQz5mYYC)를 공유함

- HN에서는 Opus 4.5를 사실상 **표준 모델**로 보고, 중국 모델은 8개월 이상 뒤처졌다고 여겨왔음. 이번 모델이 그 격차를 좁힐지 궁금함
  - 공개된 벤치마크 기준으로는 여전히 **약 6개월 정도 뒤처진다**고 보임
  - 개인적으로는 GPT-5.2가 더 뛰어나고 저렴하다고 느낌. HN의 **Claude Code 편향**은 구독자들의 자기합리화일 수도 있음. 그래도 Opus 4.5는 빠르고 품질이 높아 실제 사용성은 훌륭함.  
    반면 Gemini 3 Pro/Flash는 여전히 한 단계 아래지만, 작년 대비하면 매우 빠르고 저렴함. 결국 **벤치마크는 참고용일 뿐**, 실제 체감 품질은 주관적임

- 작년 가을 CLI 에이전트 trae를 통해 Qwen3-coder를 Rust 프로젝트에 사용했는데, **코드 생성과 리팩터링 능력**이 Gemini 2.5 Pro나 Claude Opus 3.5보다 뛰어났음.  
  Linux 공유 메모리 IPC 호출 추가나 x86_64 SIMD 최적화까지 잘 처리했음. 다만 **토큰 캐시와 대형 컨텍스트 창**을 쓰다 보니 월 수백 달러의 비용이 들었음

- Hugging Face 링크가 보이지 않아 Qwen이 더 이상 **오픈 모델을 공개하지 않는지** 궁금했음
  - Max 버전은 원래 **비공개 모델**이었음
  - 모든 모델이 공개 가중치로 배포되는 건 아니며, 이번 모델도 아직 **오픈웨이트가 아님**으로 보임

- Open Router에서 사용 가능한지 묻는 사람도 있었음. **Gemini 3 Flash와의 비교**를 기대함  
  [Mafia Arena](https://mafia-arena.com)
  - 아직은 등록되지 않았지만 곧 추가될 것으로 보임
  - 모델 비교용으로 여러 **벤치마크 사이트**를 공유함:  
    [lmarena.ai](https://lmarena.ai/leaderboard), [safe.ai 대시보드](https://dashboard.safe.ai/),  
    [Clock Draw Test](https://clocks.brianmoore.com/), [EQBench](https://eqbench.com/), [OCR Arena](https://www.ocrarena.ai/battle)

- LLM 벤치마크는 마치 **개발자 면접** 같음. 복잡한 분산 알고리즘 문제는 잘 푸는데, 실제 업무에서는 버튼 하나 추가하면서 **Tailwind 클래스 재사용을 깜빡**하는 식의 괴리가 있음

- 모델 크기를 묻는 질문이 있었음
  - Qwen2.5는 18조 토큰으로 학습됐지만, Qwen3는 **36조 토큰**으로 거의 두 배 규모임. 119개 언어와 방언을 포함함  
    [공식 블로그](https://qwen.ai/blog?id=qwen3)