8P by GN⁺ 16일전 | ★ favorite | 댓글 2개
  • Qwen3최대 235B 파라미터를 가진 최신 대형 언어 모델로, DeepSeek-R1, Grok-3, Gemini-2.5-Pro 등과 경쟁 수준의 성능을 보여줌
  • 하이브리드 사고 모드(Thinking/Non-Thinking)를 지원하여 문제 난이도에 따라 추론 깊이 조절이 가능함
  • 119개 언어와 방언을 지원하며, 글로벌 활용성이 대폭 강화됨
  • 전작 대비 2배 확장된 36조 토큰 데이터로 프리트레이닝하여 코딩, 수학, 논리추론 능력이 향상됨
  • Apache 2.0 라이선스로 오픈소스 공개되었으며, Hugging Face, ModelScope, Kaggle 등에서 바로 사용할 수 있음

소개

  • Qwen3Qwen 시리즈의 최신 대형 언어 모델로, 235B 파라미터를 가진 Qwen3-235B-A22B가 주요 플래그십 모델임
  • 소형 MoE 모델Qwen3-30B-A3B는 10배 많은 파라미터를 활성화한 QwQ-32B를 능가하는 성능을 보임
  • Dense 모델 6종(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 MoE 모델 2종(30B, 235B)을 Apache 2.0 라이선스 하에 공개함

주요 특징

  • 하이브리드 사고 모드

    • Thinking 모드: 복잡한 문제에 대해 단계별 추론을 수행하는 모드임
    • Non-Thinking 모드: 빠른 응답이 필요한 간단한 문제에 대해 즉시 답변을 제공하는 모드임
    • 작업에 따라 추론 예산을 조정해 비용 효율성과 품질을 최적화할 수 있음
  • 다국어 지원

    • 119개 언어와 방언 지원으로 글로벌 애플리케이션 확장 가능성 강화됨
    • 주요 지원 언어군: 인도유럽어족, 중국티베트어족, 아프리카아시아어족, 오스트로네시아어족, 드라비다어족
  • 개선된 에이전트 기능

    • 코딩과 에이전트 능력 최적화
    • Qwen-Agent와 통합해 툴 호출 능력 극대화 가능

사전 학습

  • Qwen2.5 대비 2배 증가한 36조 토큰을 사용해 프리트레이닝을 수행함
  • 웹과 PDF 유사 문서 데이터를 수집하여 다양한 고품질 데이터셋 구성
  • STEM, 코딩, 수학 분야 데이터를 강화하여 전반적인 추론 능력 향상을 달성함

사후 학습

  • 4단계 파이프라인(CoT 시작 → 강화학습 → 사고 모드 융합 → 일반 강화학습)을 적용함
  • 논리적 추론빠른 응답을 동시에 수행할 수 있도록 모델 최적화
  • 20개 이상 일반 도메인 태스크를 통한 강화학습으로 일반성 및 안정성을 강화함

Qwen3로 개발하기

  • Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp 등 다양한 프레임워크 지원
  • Thinking 모드는 코드에서 쉽게 on/off 가능하며, /think, /no_think 명령어로 대화 중 전환도 가능함

에이전트 사용법

  • Qwen-Agent를 통해 MCP 구성 파일이나 내장 툴을 사용하여 복잡한 에이전트 시스템 구축 가능
  • OpenAI API 호환 서버를 직접 구축해 로컬 또는 퍼블릭 배포 가능

미래 작업

  • Qwen3는 인공지능 일반 지능(AGI)과 인공지능 초지능(ASI)을 향한 중요한 이정표를 나타내며, 사전 학습과 강화 학습을 확장하여 더 높은 수준의 지능을 달성함
  • 모델 아키텍처와 학습 방법론을 개선하여 데이터 확장, 모델 크기 증가, 컨텍스트 길이 확장, 모달리티 확장, 환경 피드백을 통한 장기 추론을 목표로 함
  • 모델 훈련 중심의 시대에서 에이전트 훈련 중심의 시대로 전환하고 있으며, 다음 버전은 모든 사람의 작업과 삶에 의미 있는 발전을 가져올 것임

큰 모델도 흥미롭지만, 작은모델쪽이 더 흥미롭습니다.
0.6B 모델이 어지간한 다른 모델들의 7B 정도 성능을 내는것처럼 보여요.

Hacker News 의견
  • 물리 기반 문제를 LLMs에 제시했는데, 인간에게도 까다로운 문제임. GPT o3, Claude 3.7, Gemini 2.5 Pro 모두 처음에는 정답을 맞히지 못했음. Qwen3는 더욱 틀렸음.

  • 문서화가 잘 되어 있으며, 주요 추론 스택에 대한 지원이 첫날부터 제공됨. 다양한 크기 선택이 가능함. 커뮤니티 퀀트 메이커들과 이미 작업한 경험이 있음.

  • 성능을 테스트하기 전이지만, 주변 세부 사항에 대한 주의만으로도 훌륭한 릴리스임. Meta의 Llama 4와 비교하여 표준이 되어야 함.

  • 벤치마크 결과가 매우 뛰어나서 믿기 어려울 정도임. 30B 모델이 Gemini 2.5 Pro와 경쟁하며 Gemma 27B보다 훨씬 나음.

  • 다양한 오픈 웨이트 모델이 등장하고 있는데, 표준 데스크탑 GPU에서 합리적인 속도로 작동할 모델을 찾는 방법이 있는지 궁금함. Quadro RTX 4000을 사용 중이며, 다양한 크기의 모델 중 어떤 것이 빠를지 모르겠음.

  • Qwen과 DeepSeek 모델이 CCP의 세계관에 맞춰 훈련되었을 가능성이 있지만, 실제로는 문제를 일으키지 않았음. 관련 연구가 많지 않음.

  • Qwen-30B-A3B에 가장 기대가 큼. 오프라인/로컬 전용 코딩 어시스턴트로 적합해 보임. 지금까지 오픈 웨이트 모델은 성능이 떨어지거나 너무 느렸음.

  • 추론 모델을 비교하는 최선의 방법에 대한 통찰을 찾고 있음. 창의적인 답변을 위해 높은 온도를, 논리적이고 결정적인 출력을 위해 낮은 온도를 사용하는 것이 추천됨. 그러나 추론 모델에 적용 가능한지 확신이 없음.

  • 0.6B LLM이 32k 컨텍스트 윈도우를 가지고 있어 흥미로움. 미세 조정을 위한 재미있는 기본 모델이 될 수 있음. Hugging Face에서 가장 많이 다운로드되고 좋아요를 받음.

  • 이 모델들은 많은 생각을 하는 것처럼 보임. 벤치마크는 32k 토큰의 생각 예산으로 실행됨. A3B가 특히 QWQ를 능가하며 CPU 추론에 유용할 수 있음.

  • 성능 수치가 매우 인상적임. MoE가 3B 활성 파라미터로 o1을 능가함. 로컬 모델이 대부분의 작업을 처리할 수 있을 정도로 충분히 좋아지고 있음.