Qwen3-Next 모델 공개 - 궁극적인 학습 및 추

▲

GN⁺ 8달전 | parent | ★ favorite | on: Qwen3-Next 모델 공개 - 궁극적인 학습 및 추론 효율성을 향하여(qwen.ai)

Hacker News 의견

Qwen3-Next의 가장 멋진 부분은 linear attention 이후에 MTP(Multi-Token Prediction)를 도입하면서도 추가적 un-embedding matrix를 도입하지 않는 점임 Deepseek R1도 61번째 레이어에 MTP가 적용되어 있지만 embed_tokens와 shared_head.head라는 큰 텐서(약 2GB FP8 크기)가 추가되므로, Qwen3-Next가 훨씬 더 적은 활성 파라미터로 MTP를 처리해 GB 단위로 메모리를 절약하게 됨 이 덕분에 추론 속도가 크게 빨라짐
- MTP가 추론 단계에서 실제로 어떤 이점을 주는지 궁금함, 단지 pretraining 효율성에만 관련된 것인지 알고 싶음
- MTP와 Medusa heads의 차이점이 뭔지, 또 이 모델이 speculative decoding을 “네이티브”하게 지원하는지 궁금함 vllm에서 이 모델을 돌리면 이미 MTP가 적용되어 있어서 speculative decoding의 장점을 바로 누릴 수 있는지 알고 싶음
- 이 모든 용어들에 대해 한 번에 알기 쉽게 설명해주는 자료가 있으면 알려주면 좋겠음
Alibaba가 정말 놀라운 모델을 계속 내놓는 중임 Qwen3-Next-80B-A3B를 Qwen chat에서 써봤는데 속도가 무척 빠르고, 품질 면에서도 Qwen3-235B-A22B와 비슷한 것 같음 어떻게 이 정도를 구현했는지 인상적임 벤치마크가 Artificial analysis에 올라오는 것도 기대 중임 Qwen Chat에 따르면 Qwen3-Next의 한계는 context length 최대 262,144 token, summary generation 최대 32,768 token임 Qwen3-235B-A22B 대비 context는 2배, summary는 4배임 긴 문맥 이해와 복잡한 과제 처리가 강점임 그래도 나는 Qwen2.5-Turbo를 계속 쓸 예정임 1M token context를 지원하는 몇 안 되는 모델이라서, 큰 PDF를 올려 놓고 챕터 간 질문하는 내 환경엔 더 적합함
- Frontier 모델들에서 긴 context를 지원한다 해도 실제로는 context 길이가 길어질수록 정확도가 심하게 떨어지는 경우가 많은 것 같음 10M context를 지원한다고 해도 context를 최대로 채우면 제대로 동작하지 않는 것이 현실임 다른 사람들의 의견도 궁금함
- 모델 카드를 좀 보면 Qwen3-Next 역시 YaRN을 써서 최대 1M context length까지 확장될 수 있음 공식 문구에 따르면, Qwen3-Next는 기본적으로 262,144 token까지 context 지원하며, 입력+출력 토큰의 총합이 이를 크게 넘을 때는 RoPE scaling이나 YaRN 방법을 통해 1M 토큰까지 처리 검증됨 출처
- Alibaba의 독점 모델들도 성능이 정말 좋고 은근히 잘 알려지지 않음 벤치마크에도 거의 등장하지 않음 Qwen3-coder-plus가 오픈소스 qwen3보다 훨씬 좋고, Qwen3 max도 SOTA 모델과 겨룰 수준임
- PDF 데이터를 Qwen에 넣기 전 어떻게 준비하는지 방법이 궁금함
llm 명령으로 Qwen3-Next-80B-A3B-Thinking로 “spongebob의 ASCII”를 요청했더니 아주 기본적인 모양만 나옴 Qwen3-Coder-480B-A35B-Instruct로는 훨씬 완성도 높은 Spongebob ASCII가 생성됨 밤에 여러 번 실험했을 땐 Qwen3-coder에서 다수의 ASCII가 다리 부분이 빠지는 등 마무리가 제대로 안 됐지만, 아침엔 같은 프롬프트로 한 번에 완벽하게 나옴 혹시 리소스(서버, API) 점유율이나 상태가 응답 품질에 영향을 주는지, 아니면 순전히 운의 문제인지 궁금했음 몇 분 뒤 다시 해보니 실패했으니 아마도 10번 중 1번 정도 챈스이고, Qwen3-next에선 거의 안 나오는 정도임
- SpongeBob ASCII가 모델에 통째로 암기되어 있는 느낌임
- Kimi K2와 Qwen Coder(혹은 다른 연관 모델) 사이에 distillation이나 학습 데이터 공유가 있다 생각함 대부분 LLM을 써봤지만 Kimi K2에서만 Qwen3-coder와 똑같은 SpongeBob ASCII가 나왔음 kimi K2 사용시에도 SpongeBob ASCII가 정확히 동일하게 생성됨
- SpongeBob ASCII 테스트는 Qwen 공식 SNS에서 가져온 것으로, 사실상 주입된 암기력(rote-memorization) 측정용 probe임 규모가 큰 dense 모델이라면 파라미터 용량으로 통째로 외울 수 있으나, Qwen3의 sparse-MoE 구조에서는 expert 선택이나 토큰 샘플링 등 여러 노이즈가 추가되어 꼼꼼한 그림 alignment가 더 잘 깨질 수밖에 없음 또, gated-attention과 multi-token head 같은 새 구조까지 얹어져서 단 한 번의 불운한 expert routing만으로도 그림 배치가 틀어질 수 있음 그리고 Qwen3-coder는 이걸 특별히 학습해서 비교가 불공정해짐 Qwen3 계열 다른 모델들의 ASCII 결과도 비교해봄 상당히 각기 다르게 나옴
Qwen 덕분에 MoE가 정말 멀리 왔다는 사실이 놀라움 Qwen3-Next는 기존의 72B dense 모델을 확실히 능가하고, VRAM과 CPU를 잘 offload 하면 14B 모델보다도 빠르게 동작함 이 정도 효율성은 정말 대단함
- Qwen 덕분에 LLM 발전이 이뤄지는 게 아니라, SOTA LLM은 GPT-4부터 이미 MoE임 HN이 트렌드에 너무 뒤처져서 AI 주제에서 쓸데없는 논평이 난무하게 된 점이 안타깝다는 생각임
- 돌아보면 작년에 Meta가 dense 405B 모델을 훈련하는 데 엄청난 리소스를 쏟았던 것이 오히려 웃긴 일임 모델이 크기만 하고 실제 성능은 1/10 크기 모델보다도 떨어지고, 현실적으로 어떤 하드웨어에서도 도저히 쓸 만한 속도로 돌릴 수가 없음
Qwen3 Next를 Brokk Power Ranking 오픈라운드(코딩 벤치마크)에 추가함 성능상으론 GPT-OSS-20b와 비슷함 오픈 소스 모델 전체 성능 결과는 여기에서 확인할 수 있음
- 여러 언어가 추가된다면 더 유용한 벤치마크가 될 것 같음 현재는 자바만 평가하는데, 실생활에서 나는 자바가 아니라 다른 언어를 주로 써서 벤치마크 결과와 실제 경험이 일치하지 않음
- 등록된 Kimi K2가 최신 버전인지, 예전 Kimi k2인지 궁금함
Oracle이 이번 주에 데이터센터 수요가 급증할 것이라 전망하고 주가가 상승 중임 만약 LLM의 효율성 10배 향상이 사실이라면 Nvidia, Oracle, Coreweave 등에 대한 수요가 줄어들 수 있음
- Jevons 파라독스 같은 경제 현상을 생각해봐야 할 듯함
- Oracle 전망과 별개로, 효율성 향상이 곧바로 수요 감소로 이어지지는 않는다고 봄 Jevons 파라독스처럼, 오히려 효율이 늘면 더 많이 쓰게 될 가능성도 있음
- deepseek-r1 관련해서도 같은 얘기가 나왔지만 현실은 변하지 않았음 만약 모델을 10배 더 효율적으로 만들면, 모두 그냥 10배 더 큰 모델을 훈련하려 들 거임 플레이어들이 어느 시점에서 “이 정도 크기면 됐다”고 멈추지 않을 것임 scaling이 성능에 계속 영향을 준다면 말임
- 절대 그렇지 않음 시장 행태를 보면 항상 최고의 품질에 기꺼이 비용을 지불하고, 가격은 대체로 그대로임 새로운 모델이 출시되면 낮은 품질의(싼) 오래된 모델은 바로 외면당하고, 사람들은 같은 가격에 더 나은 모델만 찾음 이번에도 비슷하게 흘러갈 것임
- 만약 AI 버블이 터져서 데이터센터와 GPU가 남아돈다면, 이를 노리고 투자 이득을 활용할 방법이 뭐가 있을지 궁금함
Gated Delta Network가 궁금하다면 여기 논문 참고 arxiv 링크
- Gated Attention에 대한 논문은 여기에서 참고할 수 있음
Qwen3-Next가 꽤 인상적인데, 더 좋은 아키텍처가 앞으로의 혁신을 이끈다고 생각함 GPT OSS 120B처럼 100B 넘는 파라미터가 꼭 필요한 것도 아니라는 느낌임
- 확실히 파라미터는 더 많을수록 좋음 파라미터가 낮은 모델은 환각(hallucination)이 잦음 다만, 액티브 파라미터가 적고 routing만 좋으면 괜찮을 수도 있음
- 새로운 아키텍처가 멋지고, 오픈에 바로 공개되는 것도 신기함 다만 Qwen계열 모델은 오버핏이 심한 편임 특정 작업만 잘 하는 경우가 많고, 폐쇄형 모델보다 일반화에는 한계가 큼 단지 스케일의 문제인지, 아니면 학습 레시피/방법 차이까지 원인을 잘 모르겠음 OOD(out-of-distribution)로 테스트해보면 가치가 급격히 떨어지고, 폐쇄형 모델들은 여전히 강점을 보임
예측: AI가 앞으로 4년 내 현 SOTA 모델보다 15 IQ 포인트 더 높은 수준(맥락 길이도 훨씬 길어진 상태)에서 범용 재화처럼 누구나 쉽게 접근할 수 있게 될 것임 그 시점에서 synthetic data 학습에 대한 개선이 한계에 다다르면(“실제(real) 데이터”는 이미 다 소진된 뒤), 대형 자본 모델의 출력물을 활용해 저렴하게 오픈소스 모델이 훈련될 것임 그 후에는 competitive reinforcement learning으로 범용 지능(AI) 훈련하는 방법이 나오기 전까지 AI 발전이 정체될 것임 (알파고가 그렇게 훈련된 것처럼) 이 방식이 등장하면, 더 이상 방대한 학습 데이터가 필요 없게 되고, 진짜 AGI(범용 인공지능)가 나오게 될 것으로 봄
- “실제 데이터”를 다 썼다는 걸 이해 못 하겠음 인터넷에 매일 새로운 지식, 과학 논문, 영상이 쏟아지는데 어떻게 데이터가 고갈된다는 것인지 의문임
- 만약 현재 최첨단 모델이 인간 IQ 기준 120점 수준(정확한지는 모르지만 여기 기준 그렇다 치면), 앞으로 135 IQ 수준의 초몰입형 봇이 대량 등장하게 될 거임 그 상황이 실제로 어떤 의미일지 상상조차 어려움
80B 모델이긴 하지만, 요즘 난 MacBook Pro(M4, 64GB)에 편하게 돌아가는 32B 이하 모델을 눈여겨보고 있음 ollama를 매일 스팸 필터링용으로 쓰는데, gemma3:27b가 훌륭하고 gpt-oss:20b는 속도까지 빨라서 자주 씀
- Ollama로 스팸 필터링을 어떻게 활용하고 있는지 자세히 설명해주면 좋겠음
- 모델의 전체 파라미터는 80B지만 인퍼런스 때 활성되는 건 3B 정도임 8GB 짜리 Nvidia 카드에서도 예전 2507 Qwen3 30B를 잘 돌리고 있음
- MoE 구조라서 아주 잘 돌아갈 것임