Qwen3-Next는 대규모 모델의 미래 추세인 맥락 길이 확대와 전체 매개변수 확대를 지원하기 위해 개발된 새로운 모델 아키텍처로, 훈련과 추론 효율성을 극대화하는 기능을 제공
하이브리드 어텐션 메커니즘과 고도로 희소한 MoE 구조를 도입하여 장맥락과 대형 매개변수 설정에서 성능을 향상시킴
훈련 안정성 최적화와 멀티 토큰 예측 메커니즘을 통해 추론 속도를 가속화
Qwen3-Next-80B-A3B-Base 모델은 훈련 비용을 10% 미만으로 줄이면서 Qwen3-32B 모델과 동등하거나 우수한 성능을 달성
이 모델의 출시는 오픈소스 커뮤니티에 첨단 아키텍처 발전을 제공하며, Qwen3.5 개발로 이어지는 지능과 생산성 향상 기반 마련
서론
미래 대규모 모델의 주요 추세인 맥락 길이 확대와 전체 매개변수 확대를 믿고, 장맥락과 대형 매개변수 설정에서 훈련 및 추론 효율성을 높이기 위해 Qwen3-Next라는 새로운 모델 아키텍처를 설계
Qwen3의 MoE 구조와 비교하여 하이브리드 어텐션 메커니즘, 고도로 희소한 MoE 구조, 훈련 안정성 최적화, 그리고 더 빠른 추론을 위한 멀티 토큰 예측 메커니즘 등 여러 핵심 개선을 도입
이 아키텍처를 기반으로 Qwen3-Next-80B-A3B-Base 모델을 훈련하였으며, 이는 80억 매개변수 모델로 추론 시 30억 매개변수만 활성화
이 베이스 모델은 dense형 Qwen3-32B 모델과 동등하거나 약간 우수한 성능을 달성하면서 훈련 비용(GPU 시간)을 10% 미만으로 사용
특히 32K 토큰 이상의 맥락 길이에서 10배 이상 높은 처리량을 제공하여 훈련과 추론에서 극한 효율성 달성
Qwen3-Next-80B-A3B-Base를 기반으로 두 개의 사후 훈련 버전인 Qwen3-Next-80B-A3B-Instruct와 Qwen3-Next-80B-A3B-Thinking을 개발 및 출시
하이브리드 어텐션과 고희소 MoE 아키텍처로 인한 강화 학습(RL) 훈련의 오랜 안정성과 효율성 문제를 해결하여 RL 훈련 속도와 최종 성능을 모두 개선
Qwen3-Next-80B-A3B-Instruct는 플래그십 모델 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 초장맥락 작업에서 뚜렷한 우위를 나타냄
Qwen3-Next-80B-A3B-Thinking은 복잡한 추론 작업에서 탁월하며, 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가하고, 폐쇄 소스 Gemini-2.5-Flash-Thinking을 여러 벤치마크에서 초월하며, 최상위 모델 Qwen3-235B-A22B-Thinking-2507의 성능에 근접
Qwen3-Next를 Hugging Face와 ModelScope에 이미 출시하였으며, 누구나 Alibaba Cloud Model Studio와 NVIDIA API Catalog를 통해 Qwen3-Next 서비스 이용 가능
주요 기능
하이브리드 아키텍처: Gated DeltaNet + Gated Attention으로 선형 어텐션이 표준 어텐션의 이차 복잡성을 깨고 장맥락에서 더 효율적임을 활용
선형 어텐션은 빠르지만 리콜이 약하고, 표준 어텐션은 비용이 크고 느림을 발견하여 체계적 실험을 통해 Gated DeltaNet이 Sliding Window Attention이나 Mamba2 같은 일반 방법보다 강력한 인맥락 학습 능력을 제공함을 확인
Gated DeltaNet을 표준 어텐션과 3:1 비율로 혼합(75% 레이어는 Gated DeltaNet 사용, 25%는 표준 어텐션 유지)하여 단일 아키텍처보다 일관되게 우수한 성능과 효율성 달성
표준 어텐션 레이어에서 출력 게이팅 메커니즘을 채택하여 어텐션의 저랭크 문제를 줄이고, 어텐션 헤드당 차원을 128에서 256으로 증가
로터리 위치 인코딩을 위치 차원의 첫 25%에만 적용하여 더 긴 시퀀스로의 외삽을 개선
초희소 MoE: 매개변수 3.7%만 활성화로 Qwen3-Next는 80B 전체 매개변수 중 추론 단계당 약 3B만 활성화하는 고희소 MoE 설계 채택
실험에서 글로벌 로드 밸런싱을 통해 활성화 전문가를 고정하면서 전체 전문가 매개변수를 증가시킬수록 훈련 손실이 꾸준히 감소함을 보여줌
Qwen3의 MoE(전체 128 전문가, 8 라우팅)와 비교하여 Qwen3-Next는 전체 512 전문가로 확장하고, 10 라우팅 전문가 + 1 공유 전문가를 결합하여 자원 사용을 최대화하면서 성능을 저하시키지 않음
훈련 안정성 친화적 설계로 어텐션 출력 게이팅 메커니즘이 Attention Sink와 Massive Activation 같은 문제를 제거하여 모델 전체의 수치 안정성 보장
Qwen3에서 사용한 QK-Norm에서 일부 레이어 노름 가중치가 비정상적으로 커지는 문제를 발견하여, Qwen3-Next는 Zero-Centered RMSNorm을 채택하고 노름 가중치에 가중치 감쇠를 적용하여 무한 성장 방지
MoE 라우터 매개변수를 초기화 중에 정규화하여 훈련 초기에 각 전문가가 편향 없이 선택되도록 하여 랜덤 초기화로 인한 노이즈 감소
이러한 안정성 중심 설계는 소규모 실험을 더 신뢰할 수 있게 하고 대규모 훈련을 원활하게 실행
멀티 토큰 예측으로 Qwen3-Next는 네이티브 멀티 토큰 예측(MTP) 메커니즘을 도입하여 추측적 디코딩을 위한 높은 수락률의 MTP 모듈을 생성할 뿐만 아니라 전체 성능도 향상
Qwen3-Next는 MTP의 다단계 추론 성능을 특별히 최적화하며, 훈련과 추론 간 일관성을 유지하는 다단계 훈련을 통해 실제 시나리오에서 추측적 디코딩의 수락률을 추가 개선
사전 훈련
사전 훈련 효율성 및 추론 속도: Qwen3-Next는 Qwen3의 36T 토큰 사전 훈련 코퍼스 중 균일하게 샘플링된 하위 집합(15T 토큰)에서 훈련
Qwen3-30A-3B에 필요한 GPU 시간의 80% 미만을 사용하고, Qwen3-32B의 컴퓨팅 비용의 9.3%만 소비하면서 더 나은 성능을 달성하여 뛰어난 훈련 효율성과 가치 보여줌
하이브리드 아키텍처 덕분에 추론에서도 탁월하며, 프리필 단계에서 4K 맥락 길이에서 Qwen3-32B보다 거의 7배 높은 처리량 제공
32K 초과에서 10배 이상 빠름
디코드 단계에서 4K 맥락에서 거의 4배 높은 처리량을 보이고, 32K 초과에서도 여전히 10배 이상 속도 우위 유지
베이스 모델 성능: Qwen3-Next-80B-A3B-Base는 Qwen3-32B-Base의 비임베딩 매개변수 1/10만 활성화하면서 대부분의 벤치마크에서 이를 능가하고, Qwen3-30B-A3B를 크게 초월하여 예외적인 효율성과 강력한 성능 증명
사후 훈련
인스트럭트 모델 성능: Qwen3-Next-80B-A3B-Instruct는 Qwen3-30B-A3B-Instruct-2507과 Qwen3-32B-Non-thinking을 크게 능가하고, 플래그십 Qwen3-235B-A22B-Instruct-2507과 거의 일치하는 결과 달성
RULER에서 Qwen3-Next-80B-A3B-Instruct는 더 많은 어텐션 레이어를 가진 Qwen3-30B-A3B-Instruct-2507을 모든 길이에서 능가하고, 전체 레이어가 더 많은 Qwen3-235B-A22B-Instruct-2507을 256K 맥락 내에서 초월하여 장맥락 작업을 위한 Gated DeltaNet + Gated Attention 하이브리드 설계의 강점 증명
Thinking 모델 성능: Qwen3-Next-80B-A3B-Thinking은 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가
여러 벤치마크에서 폐쇄 소스 Gemini-2.5-Flash-Thinking을 초월하고, 주요 지표에서 최신 플래그십 모델 Qwen3-235B-A22B-Thinking-2507에 근접
Develop with Qwen3
Hugging Face Transformers로 Qwen3-Next 코드는 Hugging Face transformers의 메인 브랜치에 병합
이전 버전에서는 오류가 발생할 수 있음
주어진 입력에 기반한 모델 생성 내용을 예시하는 코드 스니펫 포함
멀티 토큰 예측(MTP)은 Hugging Face Transformers에서 일반적으로 사용 가능하지 않음
효율성이나 처리량 개선은 구현에 크게 의존
추론 작업에는 SGLang과 vLLM 같은 전용 추론 프레임워크 채택 추천
flash-linear-attention과 causal-conv1d를 사용하면 추론 설정에 따라 더 나은 효율성 관찰 가능
자세한 지침과 요구사항은 해당 링크 참조
배포를 위해 최신 sglang이나 vllm을 사용하여 OpenAI 호환 API 엔드포인트 생성
SGLang 은 대형 언어 모델과 비전 언어 모델을 위한 빠른 서빙 프레임워크로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음
Qwen3-Next의 가장 멋진 부분은 linear attention 이후에 MTP(Multi-Token Prediction)를 도입하면서도 추가적 un-embedding matrix를 도입하지 않는 점임 Deepseek R1도 61번째 레이어에 MTP가 적용되어 있지만 embed_tokens와 shared_head.head라는 큰 텐서(약 2GB FP8 크기)가 추가되므로, Qwen3-Next가 훨씬 더 적은 활성 파라미터로 MTP를 처리해 GB 단위로 메모리를 절약하게 됨 이 덕분에 추론 속도가 크게 빨라짐
MTP가 추론 단계에서 실제로 어떤 이점을 주는지 궁금함, 단지 pretraining 효율성에만 관련된 것인지 알고 싶음
MTP와 Medusa heads의 차이점이 뭔지, 또 이 모델이 speculative decoding을 “네이티브”하게 지원하는지 궁금함 vllm에서 이 모델을 돌리면 이미 MTP가 적용되어 있어서 speculative decoding의 장점을 바로 누릴 수 있는지 알고 싶음
이 모든 용어들에 대해 한 번에 알기 쉽게 설명해주는 자료가 있으면 알려주면 좋겠음
Alibaba가 정말 놀라운 모델을 계속 내놓는 중임 Qwen3-Next-80B-A3B를 Qwen chat에서 써봤는데 속도가 무척 빠르고, 품질 면에서도 Qwen3-235B-A22B와 비슷한 것 같음 어떻게 이 정도를 구현했는지 인상적임 벤치마크가 Artificial analysis에 올라오는 것도 기대 중임 Qwen Chat에 따르면 Qwen3-Next의 한계는 context length 최대 262,144 token, summary generation 최대 32,768 token임 Qwen3-235B-A22B 대비 context는 2배, summary는 4배임 긴 문맥 이해와 복잡한 과제 처리가 강점임 그래도 나는 Qwen2.5-Turbo를 계속 쓸 예정임 1M token context를 지원하는 몇 안 되는 모델이라서, 큰 PDF를 올려 놓고 챕터 간 질문하는 내 환경엔 더 적합함
Frontier 모델들에서 긴 context를 지원한다 해도 실제로는 context 길이가 길어질수록 정확도가 심하게 떨어지는 경우가 많은 것 같음 10M context를 지원한다고 해도 context를 최대로 채우면 제대로 동작하지 않는 것이 현실임 다른 사람들의 의견도 궁금함
모델 카드를 좀 보면 Qwen3-Next 역시 YaRN을 써서 최대 1M context length까지 확장될 수 있음 공식 문구에 따르면, Qwen3-Next는 기본적으로 262,144 token까지 context 지원하며, 입력+출력 토큰의 총합이 이를 크게 넘을 때는 RoPE scaling이나 YaRN 방법을 통해 1M 토큰까지 처리 검증됨 출처
Alibaba의 독점 모델들도 성능이 정말 좋고 은근히 잘 알려지지 않음 벤치마크에도 거의 등장하지 않음 Qwen3-coder-plus가 오픈소스 qwen3보다 훨씬 좋고, Qwen3 max도 SOTA 모델과 겨룰 수준임
PDF 데이터를 Qwen에 넣기 전 어떻게 준비하는지 방법이 궁금함
llm 명령으로 Qwen3-Next-80B-A3B-Thinking로 “spongebob의 ASCII”를 요청했더니 아주 기본적인 모양만 나옴 Qwen3-Coder-480B-A35B-Instruct로는 훨씬 완성도 높은 Spongebob ASCII가 생성됨 밤에 여러 번 실험했을 땐 Qwen3-coder에서 다수의 ASCII가 다리 부분이 빠지는 등 마무리가 제대로 안 됐지만, 아침엔 같은 프롬프트로 한 번에 완벽하게 나옴 혹시 리소스(서버, API) 점유율이나 상태가 응답 품질에 영향을 주는지, 아니면 순전히 운의 문제인지 궁금했음 몇 분 뒤 다시 해보니 실패했으니 아마도 10번 중 1번 정도 챈스이고, Qwen3-next에선 거의 안 나오는 정도임
Kimi K2와 Qwen Coder(혹은 다른 연관 모델) 사이에 distillation이나 학습 데이터 공유가 있다 생각함 대부분 LLM을 써봤지만 Kimi K2에서만 Qwen3-coder와 똑같은 SpongeBob ASCII가 나왔음
kimi K2 사용시에도 SpongeBob ASCII가 정확히 동일하게 생성됨
SpongeBob ASCII 테스트는 Qwen 공식 SNS에서 가져온 것으로, 사실상 주입된 암기력(rote-memorization) 측정용 probe임 규모가 큰 dense 모델이라면 파라미터 용량으로 통째로 외울 수 있으나, Qwen3의 sparse-MoE 구조에서는 expert 선택이나 토큰 샘플링 등 여러 노이즈가 추가되어 꼼꼼한 그림 alignment가 더 잘 깨질 수밖에 없음 또, gated-attention과 multi-token head 같은 새 구조까지 얹어져서 단 한 번의 불운한 expert routing만으로도 그림 배치가 틀어질 수 있음 그리고 Qwen3-coder는 이걸 특별히 학습해서 비교가 불공정해짐 Qwen3 계열 다른 모델들의 ASCII 결과도 비교해봄 상당히 각기 다르게 나옴
Qwen 덕분에 MoE가 정말 멀리 왔다는 사실이 놀라움 Qwen3-Next는 기존의 72B dense 모델을 확실히 능가하고, VRAM과 CPU를 잘 offload 하면 14B 모델보다도 빠르게 동작함 이 정도 효율성은 정말 대단함
Qwen 덕분에 LLM 발전이 이뤄지는 게 아니라, SOTA LLM은 GPT-4부터 이미 MoE임 HN이 트렌드에 너무 뒤처져서 AI 주제에서 쓸데없는 논평이 난무하게 된 점이 안타깝다는 생각임
돌아보면 작년에 Meta가 dense 405B 모델을 훈련하는 데 엄청난 리소스를 쏟았던 것이 오히려 웃긴 일임 모델이 크기만 하고 실제 성능은 1/10 크기 모델보다도 떨어지고, 현실적으로 어떤 하드웨어에서도 도저히 쓸 만한 속도로 돌릴 수가 없음
Qwen3 Next를 Brokk Power Ranking 오픈라운드(코딩 벤치마크)에 추가함 성능상으론 GPT-OSS-20b와 비슷함 오픈 소스 모델 전체 성능 결과는 여기에서 확인할 수 있음
여러 언어가 추가된다면 더 유용한 벤치마크가 될 것 같음 현재는 자바만 평가하는데, 실생활에서 나는 자바가 아니라 다른 언어를 주로 써서 벤치마크 결과와 실제 경험이 일치하지 않음
등록된 Kimi K2가 최신 버전인지, 예전 Kimi k2인지 궁금함
Oracle이 이번 주에 데이터센터 수요가 급증할 것이라 전망하고 주가가 상승 중임 만약 LLM의 효율성 10배 향상이 사실이라면 Nvidia, Oracle, Coreweave 등에 대한 수요가 줄어들 수 있음
Oracle 전망과 별개로, 효율성 향상이 곧바로 수요 감소로 이어지지는 않는다고 봄 Jevons 파라독스처럼, 오히려 효율이 늘면 더 많이 쓰게 될 가능성도 있음
deepseek-r1 관련해서도 같은 얘기가 나왔지만 현실은 변하지 않았음 만약 모델을 10배 더 효율적으로 만들면, 모두 그냥 10배 더 큰 모델을 훈련하려 들 거임 플레이어들이 어느 시점에서 “이 정도 크기면 됐다”고 멈추지 않을 것임 scaling이 성능에 계속 영향을 준다면 말임
절대 그렇지 않음 시장 행태를 보면 항상 최고의 품질에 기꺼이 비용을 지불하고, 가격은 대체로 그대로임 새로운 모델이 출시되면 낮은 품질의(싼) 오래된 모델은 바로 외면당하고, 사람들은 같은 가격에 더 나은 모델만 찾음 이번에도 비슷하게 흘러갈 것임
만약 AI 버블이 터져서 데이터센터와 GPU가 남아돈다면, 이를 노리고 투자 이득을 활용할 방법이 뭐가 있을지 궁금함
Qwen3-Next가 꽤 인상적인데, 더 좋은 아키텍처가 앞으로의 혁신을 이끈다고 생각함 GPT OSS 120B처럼 100B 넘는 파라미터가 꼭 필요한 것도 아니라는 느낌임
확실히 파라미터는 더 많을수록 좋음 파라미터가 낮은 모델은 환각(hallucination)이 잦음 다만, 액티브 파라미터가 적고 routing만 좋으면 괜찮을 수도 있음
새로운 아키텍처가 멋지고, 오픈에 바로 공개되는 것도 신기함 다만 Qwen계열 모델은 오버핏이 심한 편임 특정 작업만 잘 하는 경우가 많고, 폐쇄형 모델보다 일반화에는 한계가 큼 단지 스케일의 문제인지, 아니면 학습 레시피/방법 차이까지 원인을 잘 모르겠음 OOD(out-of-distribution)로 테스트해보면 가치가 급격히 떨어지고, 폐쇄형 모델들은 여전히 강점을 보임
예측: AI가 앞으로 4년 내 현 SOTA 모델보다 15 IQ 포인트 더 높은 수준(맥락 길이도 훨씬 길어진 상태)에서 범용 재화처럼 누구나 쉽게 접근할 수 있게 될 것임 그 시점에서 synthetic data 학습에 대한 개선이 한계에 다다르면(“실제(real) 데이터”는 이미 다 소진된 뒤), 대형 자본 모델의 출력물을 활용해 저렴하게 오픈소스 모델이 훈련될 것임 그 후에는 competitive reinforcement learning으로 범용 지능(AI) 훈련하는 방법이 나오기 전까지 AI 발전이 정체될 것임 (알파고가 그렇게 훈련된 것처럼) 이 방식이 등장하면, 더 이상 방대한 학습 데이터가 필요 없게 되고, 진짜 AGI(범용 인공지능)가 나오게 될 것으로 봄
“실제 데이터”를 다 썼다는 걸 이해 못 하겠음 인터넷에 매일 새로운 지식, 과학 논문, 영상이 쏟아지는데 어떻게 데이터가 고갈된다는 것인지 의문임
만약 현재 최첨단 모델이 인간 IQ 기준 120점 수준(정확한지는 모르지만 여기 기준 그렇다 치면), 앞으로 135 IQ 수준의 초몰입형 봇이 대량 등장하게 될 거임 그 상황이 실제로 어떤 의미일지 상상조차 어려움
80B 모델이긴 하지만, 요즘 난 MacBook Pro(M4, 64GB)에 편하게 돌아가는 32B 이하 모델을 눈여겨보고 있음 ollama를 매일 스팸 필터링용으로 쓰는데, gemma3:27b가 훌륭하고 gpt-oss:20b는 속도까지 빨라서 자주 씀
Ollama로 스팸 필터링을 어떻게 활용하고 있는지 자세히 설명해주면 좋겠음
모델의 전체 파라미터는 80B지만 인퍼런스 때 활성되는 건 3B 정도임 8GB 짜리 Nvidia 카드에서도 예전 2507 Qwen3 30B를 잘 돌리고 있음