# Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델

> Clean Markdown view of GeekNews topic #20581. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20581](https://news.hada.io/topic?id=20581)
- GeekNews Markdown: [https://news.hada.io/topic/20581.md](https://news.hada.io/topic/20581.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-29T09:55:48+09:00
- Updated: 2025-04-29T09:55:48+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwen3/)
- Points: 8
- Comments: 2

## Summary

**Qwen3**는 **235B 파라미터**를 가진 최신 대형 언어 모델로, **하이브리드 사고 모드**를 통해 **문제 난이도에 따라 추론 깊이 조절**이 가능합니다. 119개 언어와 방언을 지원하여 글로벌 활용성이 강화되었으며, **2배 확장된 36조 토큰 데이터**로 프리트레이닝하여 **코딩, 수학, 논리추론** 능력이 향상되었습니다. Apache 2.0 라이선스로 오픈소스 공개되어 Hugging Face, ModelScope, Kaggle 등에서 사용할 수 있습니다. **Qwen-Agent**와 통합하여 **툴 호출** 능력을 극대화할 수 있으며, **다양한 프레임워크**를 지원하여 **복잡한 에이전트 시스템** 구축이 가능합니다.

## Topic Body

- **Qwen3**는 **최대 235B 파라미터**를 가진 최신 대형 언어 모델로, **DeepSeek-R1**, **Grok-3**, **Gemini-2.5-Pro** 등과 **경쟁 수준**의 성능을 보여줌  
- **하이브리드 사고 모드**(Thinking/Non-Thinking)를 지원하여 **문제 난이도에 따라 추론 깊이 조절**이 가능함  
- **119개 언어와 방언**을 지원하며, **글로벌 활용성**이 대폭 강화됨  
- 전작 대비 **2배 확장된 36조 토큰 데이터**로 프리트레이닝하여 **코딩, 수학, 논리추론** 능력이 향상됨  
- **Apache 2.0 라이선스**로 오픈소스 공개되었으며, **Hugging Face**, **ModelScope**, **Kaggle** 등에서 바로 사용할 수 있음  
  
---  
  
### 소개  
  
- **Qwen3**는 **Qwen 시리즈**의 최신 대형 언어 모델로, **235B 파라미터**를 가진 **Qwen3-235B-A22B**가 주요 플래그십 모델임  
- 소형 **MoE 모델**인 **Qwen3-30B-A3B**는 10배 많은 파라미터를 활성화한 **QwQ-32B**를 능가하는 성능을 보임  
- **Dense 모델** 6종(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 **MoE 모델** 2종(30B, 235B)을 **Apache 2.0** 라이선스 하에 공개함  
  
### 주요 특징  
  
- # 하이브리드 사고 모드  
  - **Thinking 모드**: 복잡한 문제에 대해 **단계별 추론**을 수행하는 모드임  
  - **Non-Thinking 모드**: 빠른 응답이 필요한 간단한 문제에 대해 **즉시 답변**을 제공하는 모드임  
  - 작업에 따라 **추론 예산**을 조정해 **비용 효율성과 품질을 최적화**할 수 있음  
- # 다국어 지원   
  - **119개 언어와 방언** 지원으로 **글로벌 애플리케이션** 확장 가능성 강화됨  
  - 주요 지원 언어군: **인도유럽어족**, **중국티베트어족**, **아프리카아시아어족**, **오스트로네시아어족**, **드라비다어족** 등  
- # 개선된 에이전트 기능   
  - **코딩과 에이전트 능력** 최적화  
  - **Qwen-Agent**와 통합해 **툴 호출** 능력 극대화 가능  
  
### 사전 학습   
  
- **Qwen2.5** 대비 **2배 증가한 36조 토큰**을 사용해 프리트레이닝을 수행함  
- 웹과 PDF 유사 문서 데이터를 수집하여 **다양한 고품질 데이터셋** 구성  
- **STEM, 코딩, 수학** 분야 데이터를 강화하여 **전반적인 추론 능력 향상**을 달성함  
  
### 사후 학습   
  
- **4단계 파이프라인**(CoT 시작 → 강화학습 → 사고 모드 융합 → 일반 강화학습)을 적용함  
- **논리적 추론**과 **빠른 응답**을 동시에 수행할 수 있도록 모델 최적화  
- **20개 이상 일반 도메인 태스크**를 통한 강화학습으로 **일반성 및 안정성**을 강화함  
  
### Qwen3로 개발하기   
  
- **Hugging Face transformers**, **SGLang**, **vLLM**, **Ollama**, **LMStudio**, **llama.cpp** 등 다양한 프레임워크 지원  
- **Thinking 모드**는 코드에서 쉽게 **on/off** 가능하며, `/think`, `/no_think` 명령어로 **대화 중 전환**도 가능함  
  
### 에이전트 사용법  
  
- **Qwen-Agent**를 통해 **MCP 구성 파일**이나 **내장 툴**을 사용하여 **복잡한 에이전트 시스템** 구축 가능  
- OpenAI API 호환 서버를 직접 구축해 **로컬 또는 퍼블릭 배포** 가능  
  
### 미래 작업  
  
- **Qwen3**는 인공지능 일반 지능(AGI)과 인공지능 초지능(ASI)을 향한 중요한 이정표를 나타내며, 사전 학습과 강화 학습을 확장하여 더 높은 수준의 지능을 달성함  
- 모델 아키텍처와 학습 방법론을 개선하여 데이터 확장, 모델 크기 증가, 컨텍스트 길이 확장, 모달리티 확장, 환경 피드백을 통한 장기 추론을 목표로 함  
- 모델 훈련 중심의 시대에서 에이전트 훈련 중심의 시대로 전환하고 있으며, 다음 버전은 모든 사람의 작업과 삶에 의미 있는 발전을 가져올 것임

## Comments


### Comment 37956

- Author: iwanhae
- Created: 2025-04-29T11:17:28+09:00
- Points: 1

큰 모델도 흥미롭지만, 작은모델쪽이 더 흥미롭습니다.  
0.6B 모델이 어지간한 다른 모델들의 7B 정도 성능을 내는것처럼 보여요.

### Comment 37938

- Author: neo
- Created: 2025-04-29T09:55:49+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43825900) 
* 물리 기반 문제를 LLMs에 제시했는데, 인간에게도 까다로운 문제임. GPT o3, Claude 3.7, Gemini 2.5 Pro 모두 처음에는 정답을 맞히지 못했음. Qwen3는 더욱 틀렸음.

* 문서화가 잘 되어 있으며, 주요 추론 스택에 대한 지원이 첫날부터 제공됨. 다양한 크기 선택이 가능함. 커뮤니티 퀀트 메이커들과 이미 작업한 경험이 있음.

* 성능을 테스트하기 전이지만, 주변 세부 사항에 대한 주의만으로도 훌륭한 릴리스임. Meta의 Llama 4와 비교하여 표준이 되어야 함.

* 벤치마크 결과가 매우 뛰어나서 믿기 어려울 정도임. 30B 모델이 Gemini 2.5 Pro와 경쟁하며 Gemma 27B보다 훨씬 나음.

* 다양한 오픈 웨이트 모델이 등장하고 있는데, 표준 데스크탑 GPU에서 합리적인 속도로 작동할 모델을 찾는 방법이 있는지 궁금함. Quadro RTX 4000을 사용 중이며, 다양한 크기의 모델 중 어떤 것이 빠를지 모르겠음.

* Qwen과 DeepSeek 모델이 CCP의 세계관에 맞춰 훈련되었을 가능성이 있지만, 실제로는 문제를 일으키지 않았음. 관련 연구가 많지 않음.

* Qwen-30B-A3B에 가장 기대가 큼. 오프라인/로컬 전용 코딩 어시스턴트로 적합해 보임. 지금까지 오픈 웨이트 모델은 성능이 떨어지거나 너무 느렸음.

* 추론 모델을 비교하는 최선의 방법에 대한 통찰을 찾고 있음. 창의적인 답변을 위해 높은 온도를, 논리적이고 결정적인 출력을 위해 낮은 온도를 사용하는 것이 추천됨. 그러나 추론 모델에 적용 가능한지 확신이 없음.

* 0.6B LLM이 32k 컨텍스트 윈도우를 가지고 있어 흥미로움. 미세 조정을 위한 재미있는 기본 모델이 될 수 있음. Hugging Face에서 가장 많이 다운로드되고 좋아요를 받음.

* 이 모델들은 많은 생각을 하는 것처럼 보임. 벤치마크는 32k 토큰의 생각 예산으로 실행됨. A3B가 특히 QWQ를 능가하며 CPU 추론에 유용할 수 있음.

* 성능 수치가 매우 인상적임. MoE가 3B 활성 파라미터로 o1을 능가함. 로컬 모델이 대부분의 작업을 처리할 수 있을 정도로 충분히 좋아지고 있음.