- Qwen3-Next는 대규모 모델의 미래 추세인 맥락 길이 확대와 전체 매개변수 확대를 지원하기 위해 개발된 새로운 모델 아키텍처로, 훈련과 추론 효율성을 극대화하는 기능을 제공
-
하이브리드 어텐션 메커니즘과 고도로 희소한 MoE 구조를 도입하여 장맥락과 대형 매개변수 설정에서 성능을 향상시킴
-
훈련 안정성 최적화와 멀티 토큰 예측 메커니즘을 통해 추론 속도를 가속화
- Qwen3-Next-80B-A3B-Base 모델은 훈련 비용을 10% 미만으로 줄이면서 Qwen3-32B 모델과 동등하거나 우수한 성능을 달성
- 이 모델의 출시는 오픈소스 커뮤니티에 첨단 아키텍처 발전을 제공하며, Qwen3.5 개발로 이어지는 지능과 생산성 향상 기반 마련
서론
- 미래 대규모 모델의 주요 추세인 맥락 길이 확대와 전체 매개변수 확대를 믿고, 장맥락과 대형 매개변수 설정에서 훈련 및 추론 효율성을 높이기 위해 Qwen3-Next라는 새로운 모델 아키텍처를 설계
- Qwen3의 MoE 구조와 비교하여 하이브리드 어텐션 메커니즘, 고도로 희소한 MoE 구조, 훈련 안정성 최적화, 그리고 더 빠른 추론을 위한 멀티 토큰 예측 메커니즘 등 여러 핵심 개선을 도입
- 이 아키텍처를 기반으로 Qwen3-Next-80B-A3B-Base 모델을 훈련하였으며, 이는 80억 매개변수 모델로 추론 시 30억 매개변수만 활성화
- 이 베이스 모델은 dense형 Qwen3-32B 모델과 동등하거나 약간 우수한 성능을 달성하면서 훈련 비용(GPU 시간)을 10% 미만으로 사용
- 특히 32K 토큰 이상의 맥락 길이에서 10배 이상 높은 처리량을 제공하여 훈련과 추론에서 극한 효율성 달성
- Qwen3-Next-80B-A3B-Base를 기반으로 두 개의 사후 훈련 버전인 Qwen3-Next-80B-A3B-Instruct와 Qwen3-Next-80B-A3B-Thinking을 개발 및 출시
- 하이브리드 어텐션과 고희소 MoE 아키텍처로 인한 강화 학습(RL) 훈련의 오랜 안정성과 효율성 문제를 해결하여 RL 훈련 속도와 최종 성능을 모두 개선
- Qwen3-Next-80B-A3B-Instruct는 플래그십 모델 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 초장맥락 작업에서 뚜렷한 우위를 나타냄
- Qwen3-Next-80B-A3B-Thinking은 복잡한 추론 작업에서 탁월하며, 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가하고, 폐쇄 소스 Gemini-2.5-Flash-Thinking을 여러 벤치마크에서 초월하며, 최상위 모델 Qwen3-235B-A22B-Thinking-2507의 성능에 근접
- Qwen3-Next를 Hugging Face와 ModelScope에 이미 출시하였으며, 누구나 Alibaba Cloud Model Studio와 NVIDIA API Catalog를 통해 Qwen3-Next 서비스 이용 가능
주요 기능
-
하이브리드 아키텍처: Gated DeltaNet + Gated Attention으로 선형 어텐션이 표준 어텐션의 이차 복잡성을 깨고 장맥락에서 더 효율적임을 활용
- 선형 어텐션은 빠르지만 리콜이 약하고, 표준 어텐션은 비용이 크고 느림을 발견하여 체계적 실험을 통해 Gated DeltaNet이 Sliding Window Attention이나 Mamba2 같은 일반 방법보다 강력한 인맥락 학습 능력을 제공함을 확인
- Gated DeltaNet을 표준 어텐션과 3:1 비율로 혼합(75% 레이어는 Gated DeltaNet 사용, 25%는 표준 어텐션 유지)하여 단일 아키텍처보다 일관되게 우수한 성능과 효율성 달성
- 표준 어텐션 레이어에서 출력 게이팅 메커니즘을 채택하여 어텐션의 저랭크 문제를 줄이고, 어텐션 헤드당 차원을 128에서 256으로 증가
- 로터리 위치 인코딩을 위치 차원의 첫 25%에만 적용하여 더 긴 시퀀스로의 외삽을 개선
-
초희소 MoE: 매개변수 3.7%만 활성화로 Qwen3-Next는 80B 전체 매개변수 중 추론 단계당 약 3B만 활성화하는 고희소 MoE 설계 채택
- 실험에서 글로벌 로드 밸런싱을 통해 활성화 전문가를 고정하면서 전체 전문가 매개변수를 증가시킬수록 훈련 손실이 꾸준히 감소함을 보여줌
- Qwen3의 MoE(전체 128 전문가, 8 라우팅)와 비교하여 Qwen3-Next는 전체 512 전문가로 확장하고, 10 라우팅 전문가 + 1 공유 전문가를 결합하여 자원 사용을 최대화하면서 성능을 저하시키지 않음
-
훈련 안정성 친화적 설계로 어텐션 출력 게이팅 메커니즘이 Attention Sink와 Massive Activation 같은 문제를 제거하여 모델 전체의 수치 안정성 보장
- Qwen3에서 사용한 QK-Norm에서 일부 레이어 노름 가중치가 비정상적으로 커지는 문제를 발견하여, Qwen3-Next는 Zero-Centered RMSNorm을 채택하고 노름 가중치에 가중치 감쇠를 적용하여 무한 성장 방지
- MoE 라우터 매개변수를 초기화 중에 정규화하여 훈련 초기에 각 전문가가 편향 없이 선택되도록 하여 랜덤 초기화로 인한 노이즈 감소
- 이러한 안정성 중심 설계는 소규모 실험을 더 신뢰할 수 있게 하고 대규모 훈련을 원활하게 실행
-
멀티 토큰 예측으로 Qwen3-Next는 네이티브 멀티 토큰 예측(MTP) 메커니즘을 도입하여 추측적 디코딩을 위한 높은 수락률의 MTP 모듈을 생성할 뿐만 아니라 전체 성능도 향상
- Qwen3-Next는 MTP의 다단계 추론 성능을 특별히 최적화하며, 훈련과 추론 간 일관성을 유지하는 다단계 훈련을 통해 실제 시나리오에서 추측적 디코딩의 수락률을 추가 개선
사전 훈련
-
사전 훈련 효율성 및 추론 속도: Qwen3-Next는 Qwen3의 36T 토큰 사전 훈련 코퍼스 중 균일하게 샘플링된 하위 집합(15T 토큰)에서 훈련
- Qwen3-30A-3B에 필요한 GPU 시간의 80% 미만을 사용하고, Qwen3-32B의 컴퓨팅 비용의 9.3%만 소비하면서 더 나은 성능을 달성하여 뛰어난 훈련 효율성과 가치 보여줌
- 하이브리드 아키텍처 덕분에 추론에서도 탁월하며, 프리필 단계에서 4K 맥락 길이에서 Qwen3-32B보다 거의 7배 높은 처리량 제공
- 32K 초과에서 10배 이상 빠름
- 디코드 단계에서 4K 맥락에서 거의 4배 높은 처리량을 보이고, 32K 초과에서도 여전히 10배 이상 속도 우위 유지
-
베이스 모델 성능: Qwen3-Next-80B-A3B-Base는 Qwen3-32B-Base의 비임베딩 매개변수 1/10만 활성화하면서 대부분의 벤치마크에서 이를 능가하고, Qwen3-30B-A3B를 크게 초월하여 예외적인 효율성과 강력한 성능 증명
사후 훈련
-
인스트럭트 모델 성능: Qwen3-Next-80B-A3B-Instruct는 Qwen3-30B-A3B-Instruct-2507과 Qwen3-32B-Non-thinking을 크게 능가하고, 플래그십 Qwen3-235B-A22B-Instruct-2507과 거의 일치하는 결과 달성
- RULER에서 Qwen3-Next-80B-A3B-Instruct는 더 많은 어텐션 레이어를 가진 Qwen3-30B-A3B-Instruct-2507을 모든 길이에서 능가하고, 전체 레이어가 더 많은 Qwen3-235B-A22B-Instruct-2507을 256K 맥락 내에서 초월하여 장맥락 작업을 위한 Gated DeltaNet + Gated Attention 하이브리드 설계의 강점 증명
-
Thinking 모델 성능: Qwen3-Next-80B-A3B-Thinking은 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가
- 여러 벤치마크에서 폐쇄 소스 Gemini-2.5-Flash-Thinking을 초월하고, 주요 지표에서 최신 플래그십 모델 Qwen3-235B-A22B-Thinking-2507에 근접
Develop with Qwen3
-
Hugging Face Transformers로 Qwen3-Next 코드는 Hugging Face transformers의 메인 브랜치에 병합
- 이전 버전에서는 오류가 발생할 수 있음
- 주어진 입력에 기반한 모델 생성 내용을 예시하는 코드 스니펫 포함
- 멀티 토큰 예측(MTP)은 Hugging Face Transformers에서 일반적으로 사용 가능하지 않음
- 효율성이나 처리량 개선은 구현에 크게 의존
- 추론 작업에는 SGLang과 vLLM 같은 전용 추론 프레임워크 채택 추천
- flash-linear-attention과 causal-conv1d를 사용하면 추론 설정에 따라 더 나은 효율성 관찰 가능
- 자세한 지침과 요구사항은 해당 링크 참조
- 배포를 위해 최신 sglang이나 vllm을 사용하여 OpenAI 호환 API 엔드포인트 생성
-
SGLang 은 대형 언어 모델과 비전 언어 모델을 위한 빠른 서빙 프레임워크로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음
- SGLang은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능
- 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:30000/v1에서 API 엔드포인트 생성 명령 제공
- MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공
- 현재 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 환경 변수 필요
- 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려
-
vLLM 은 LLM을 위한 고처리량 및 메모리 효율적 추론 및 서빙 엔진으로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음
- vLLM은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능
- 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:8000/v1에서 API 엔드포인트 생성 명령 제공
- MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공
- 현재 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 환경 변수 필요
- 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려
-
Agentic 사용: Qwen3는 도구 호출 능력에서 탁월하며, Qwen-Agent를 사용하여 Qwen3의 에이전트 능력을 최대로 활용 추천
- Qwen-Agent는 내부적으로 도구 호출 템플릿과 도구 호출 파서를 캡슐화하여 코딩 복잡성 크게 감소
- 사용 가능한 도구를 정의하기 위해 MCP 설정 파일 사용, Qwen-Agent의 통합 도구 사용, 또는 자체 통합 도구 가능
-
초장 텍스트 처리: Qwen3-Next는 최대 262,144 토큰의 맥락 길이를 네이티브 지원
- 입력과 출력 포함 총 길이가 이 제한을 크게 초과하는 대화의 경우, YaRN 같은 RoPE 스케일링 기술을 사용하여 장문 텍스트 효과적 처리 추천
- YaRN을 사용한 맥락 길이 최대 100만 토큰의 모델 성능 검증
- YaRN은 transformers, vllm, sglang 같은 여러 추론 프레임워크에서 현재 지원
- 지원 프레임워크에서 YaRN을 활성화하는 두 가지 접근법은 모델 파일 수정 또는 명령줄 인수 전달
- config.json 파일에서 rope_scaling 필드 추가
- vllm의 경우 명령줄 인수 사용
- sglang의 경우 명령줄 인수 사용
- 모든 주목할 만한 오픈소스 프레임워크는 정적 YaRN을 구현하여 입력 길이에 관계없이 스케일링 팩터가 일정하게 유지되며, 짧은 텍스트 성능에 잠재적 영향
- 장맥락 처리 필요 시에만 rope_scaling 설정 추가 권장
- factor를 필요에 따라 수정 추천하며, 예를 들어 애플리케이션의 일반 맥락 길이가 524,288 토큰이면 factor를 2.0으로 설정
요약
- Qwen3-Next는 어텐션 메커니즘의 혁신을 도입한 선형 어텐션과 어텐션 게이트를 포함한 주요 모델 아키텍처 도약을 나타내며, MoE 설계에서 희소성 증가
- Qwen3-Next-80B-A3B는 thinking과 non-thinking 모드 모두에서 더 큰 Qwen3-235B-A22B-2507과 동등한 성능을 제공하면서 롱컨텍스트 시나리오에서 상당히 빠른 추론 제공
- 이 릴리스로 오픈소스 커뮤니티에 첨단 아키텍처 발전을 강화하여 최첨단 아키텍처 발전과 함께 진화하고자 함