# Qwen3-Next 모델 공개 - 궁극적인 학습 및 추론 효율성을 향하여

> Clean Markdown view of GeekNews topic #23055. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23055](https://news.hada.io/topic?id=23055)
- GeekNews Markdown: [https://news.hada.io/topic/23055.md](https://news.hada.io/topic/23055.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-09-13T09:51:26+09:00
- Updated: 2025-09-13T09:51:26+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&amp;from=research.latest-advancements-list)
- Points: 3
- Comments: 1

## Topic Body

- Qwen3-Next는 **대규모 모델**의 미래 추세인 **맥락 길이 확대**와 **전체 매개변수 확대**를 지원하기 위해 개발된 새로운 모델 아키텍처로, 훈련과 추론 효율성을 극대화하는 기능을 제공  
- **하이브리드 어텐션 메커니즘**과 **고도로 희소한 MoE 구조**를 도입하여 장맥락과 대형 매개변수 설정에서 성능을 향상시킴  
- **훈련 안정성 최적화**와 **멀티 토큰 예측 메커니즘**을 통해 추론 속도를 가속화  
- Qwen3-Next-80B-A3B-Base 모델은 훈련 비용을 10% 미만으로 줄이면서 Qwen3-32B 모델과 동등하거나 우수한 성능을 달성  
- 이 모델의 출시는 오픈소스 커뮤니티에 **첨단 아키텍처 발전**을 제공하며, Qwen3.5 개발로 이어지는 지능과 생산성 향상 기반 마련  
  
---  
### 서론  
  
- 미래 대규모 모델의 주요 추세인 **맥락 길이 확대**와 **전체 매개변수 확대**를 믿고, 장맥락과 대형 매개변수 설정에서 훈련 및 추론 효율성을 높이기 위해 Qwen3-Next라는 새로운 모델 아키텍처를 설계  
- Qwen3의 MoE 구조와 비교하여 **하이브리드 어텐션 메커니즘**, **고도로 희소한 MoE 구조**, 훈련 안정성 최적화, 그리고 더 빠른 추론을 위한 멀티 토큰 예측 메커니즘 등 여러 핵심 개선을 도입  
- 이 아키텍처를 기반으로 Qwen3-Next-80B-A3B-Base 모델을 훈련하였으며, 이는 80억 매개변수 모델로 추론 시 30억 매개변수만 활성화  
- 이 베이스 모델은 dense형 Qwen3-32B 모델과 동등하거나 약간 우수한 성능을 달성하면서 훈련 비용(GPU 시간)을 10% 미만으로 사용  
- 특히 32K 토큰 이상의 맥락 길이에서 10배 이상 높은 처리량을 제공하여 훈련과 추론에서 **극한 효율성** 달성  
- Qwen3-Next-80B-A3B-Base를 기반으로 두 개의 사후 훈련 버전인 Qwen3-Next-80B-A3B-Instruct와 Qwen3-Next-80B-A3B-Thinking을 개발 및 출시  
- 하이브리드 어텐션과 고희소 MoE 아키텍처로 인한 강화 학습(RL) 훈련의 오랜 안정성과 효율성 문제를 해결하여 RL 훈련 속도와 최종 성능을 모두 개선  
- Qwen3-Next-80B-A3B-Instruct는 플래그십 모델 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 **초장맥락 작업**에서 뚜렷한 우위를 나타냄  
- Qwen3-Next-80B-A3B-Thinking은 복잡한 추론 작업에서 탁월하며, 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가하고, 폐쇄 소스 Gemini-2.5-Flash-Thinking을 여러 벤치마크에서 초월하며, 최상위 모델 Qwen3-235B-A22B-Thinking-2507의 성능에 근접  
- Qwen3-Next를 Hugging Face와 ModelScope에 이미 출시하였으며, 누구나 Alibaba Cloud Model Studio와 NVIDIA API Catalog를 통해 Qwen3-Next 서비스 이용 가능  
  
### 주요 기능  
  
- **하이브리드 아키텍처: Gated DeltaNet + Gated Attention**으로 선형 어텐션이 표준 어텐션의 이차 복잡성을 깨고 장맥락에서 더 효율적임을 활용  
  - 선형 어텐션은 빠르지만 리콜이 약하고, 표준 어텐션은 비용이 크고 느림을 발견하여 체계적 실험을 통해 Gated DeltaNet이 Sliding Window Attention이나 Mamba2 같은 일반 방법보다 강력한 인맥락 학습 능력을 제공함을 확인  
  - Gated DeltaNet을 표준 어텐션과 3:1 비율로 혼합(75% 레이어는 Gated DeltaNet 사용, 25%는 표준 어텐션 유지)하여 단일 아키텍처보다 일관되게 우수한 성능과 효율성 달성  
  - 표준 어텐션 레이어에서 출력 게이팅 메커니즘을 채택하여 어텐션의 저랭크 문제를 줄이고, 어텐션 헤드당 차원을 128에서 256으로 증가  
  - 로터리 위치 인코딩을 위치 차원의 첫 25%에만 적용하여 더 긴 시퀀스로의 외삽을 개선  
- **초희소 MoE: 매개변수 3.7%만 활성화**로 Qwen3-Next는 80B 전체 매개변수 중 추론 단계당 약 3B만 활성화하는 고희소 MoE 설계 채택  
  - 실험에서 글로벌 로드 밸런싱을 통해 활성화 전문가를 고정하면서 전체 전문가 매개변수를 증가시킬수록 훈련 손실이 꾸준히 감소함을 보여줌  
  - Qwen3의 MoE(전체 128 전문가, 8 라우팅)와 비교하여 Qwen3-Next는 전체 512 전문가로 확장하고, 10 라우팅 전문가 + 1 공유 전문가를 결합하여 자원 사용을 최대화하면서 성능을 저하시키지 않음  
- **훈련 안정성 친화적 설계**로 어텐션 출력 게이팅 메커니즘이 Attention Sink와 Massive Activation 같은 문제를 제거하여 모델 전체의 수치 안정성 보장  
  - Qwen3에서 사용한 QK-Norm에서 일부 레이어 노름 가중치가 비정상적으로 커지는 문제를 발견하여, Qwen3-Next는 Zero-Centered RMSNorm을 채택하고 노름 가중치에 가중치 감쇠를 적용하여 무한 성장 방지  
  - MoE 라우터 매개변수를 초기화 중에 정규화하여 훈련 초기에 각 전문가가 편향 없이 선택되도록 하여 랜덤 초기화로 인한 노이즈 감소  
  - 이러한 안정성 중심 설계는 소규모 실험을 더 신뢰할 수 있게 하고 대규모 훈련을 원활하게 실행  
- **멀티 토큰 예측**으로 Qwen3-Next는 네이티브 멀티 토큰 예측(MTP) 메커니즘을 도입하여 추측적 디코딩을 위한 높은 수락률의 MTP 모듈을 생성할 뿐만 아니라 전체 성능도 향상  
  - Qwen3-Next는 MTP의 다단계 추론 성능을 특별히 최적화하며, 훈련과 추론 간 일관성을 유지하는 다단계 훈련을 통해 실제 시나리오에서 추측적 디코딩의 수락률을 추가 개선  
  
### 사전 훈련  
  
- **사전 훈련 효율성 및 추론 속도**: Qwen3-Next는 Qwen3의 36T 토큰 사전 훈련 코퍼스 중 균일하게 샘플링된 하위 집합(15T 토큰)에서 훈련  
  - Qwen3-30A-3B에 필요한 GPU 시간의 80% 미만을 사용하고, Qwen3-32B의 컴퓨팅 비용의 9.3%만 소비하면서 더 나은 성능을 달성하여 뛰어난 훈련 효율성과 가치 보여줌  
  - 하이브리드 아키텍처 덕분에 추론에서도 탁월하며, 프리필 단계에서 4K 맥락 길이에서 Qwen3-32B보다 거의 7배 높은 처리량 제공  
  - 32K 초과에서 10배 이상 빠름  
  - 디코드 단계에서 4K 맥락에서 거의 4배 높은 처리량을 보이고, 32K 초과에서도 여전히 10배 이상 속도 우위 유지  
- **베이스 모델 성능**: Qwen3-Next-80B-A3B-Base는 Qwen3-32B-Base의 비임베딩 매개변수 1/10만 활성화하면서 대부분의 벤치마크에서 이를 능가하고, Qwen3-30B-A3B를 크게 초월하여 예외적인 효율성과 강력한 성능 증명  
  
### 사후 훈련  
- **인스트럭트 모델 성능**: Qwen3-Next-80B-A3B-Instruct는 Qwen3-30B-A3B-Instruct-2507과 Qwen3-32B-Non-thinking을 크게 능가하고, 플래그십 Qwen3-235B-A22B-Instruct-2507과 거의 일치하는 결과 달성  
  - RULER에서 Qwen3-Next-80B-A3B-Instruct는 더 많은 어텐션 레이어를 가진 Qwen3-30B-A3B-Instruct-2507을 모든 길이에서 능가하고, 전체 레이어가 더 많은 Qwen3-235B-A22B-Instruct-2507을 256K 맥락 내에서 초월하여 장맥락 작업을 위한 Gated DeltaNet + Gated Attention 하이브리드 설계의 강점 증명  
- **Thinking 모델 성능**: Qwen3-Next-80B-A3B-Thinking은 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가  
  - 여러 벤치마크에서 폐쇄 소스 Gemini-2.5-Flash-Thinking을 초월하고, 주요 지표에서 최신 플래그십 모델 Qwen3-235B-A22B-Thinking-2507에 근접  
  
### Develop with Qwen3  
  
- **Hugging Face Transformers**로 Qwen3-Next 코드는 Hugging Face transformers의 메인 브랜치에 병합  
  - 이전 버전에서는 오류가 발생할 수 있음  
  - 주어진 입력에 기반한 모델 생성 내용을 예시하는 코드 스니펫 포함  
  - 멀티 토큰 예측(MTP)은 Hugging Face Transformers에서 일반적으로 사용 가능하지 않음  
  - 효율성이나 처리량 개선은 구현에 크게 의존  
  - 추론 작업에는 SGLang과 vLLM 같은 전용 추론 프레임워크 채택 추천  
  - flash-linear-attention과 causal-conv1d를 사용하면 추론 설정에 따라 더 나은 효율성 관찰 가능  
  - 자세한 지침과 요구사항은 해당 링크 참조  
  - 배포를 위해 최신 sglang이나 vllm을 사용하여 OpenAI 호환 API 엔드포인트 생성  
- **[SGLang](https://github.com/sgl-project/sglang?spm=a2ty_o06.30285417.0.0.4766c921xuDoDc)** 은 대형 언어 모델과 비전 언어 모델을 위한 빠른 서빙 프레임워크로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음  
  - SGLang은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능  
  - 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:30000/v1에서 API 엔드포인트 생성 명령 제공  
  - MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공  
  - 현재 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 환경 변수 필요  
  - 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려  
- **[vLLM](https://github.com/vllm-project/vllm?spm=a2ty_o06.30285417.0.0.4766c921xuDoDc)** 은 LLM을 위한 고처리량 및 메모리 효율적 추론 및 서빙 엔진으로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음  
  - vLLM은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능  
  - 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:8000/v1에서 API 엔드포인트 생성 명령 제공  
  - MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공  
  - 현재 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 환경 변수 필요  
  - 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려  
- **Agentic 사용**: Qwen3는 도구 호출 능력에서 탁월하며, Qwen-Agent를 사용하여 Qwen3의 에이전트 능력을 최대로 활용 추천  
  - Qwen-Agent는 내부적으로 도구 호출 템플릿과 도구 호출 파서를 캡슐화하여 코딩 복잡성 크게 감소  
  - 사용 가능한 도구를 정의하기 위해 MCP 설정 파일 사용, Qwen-Agent의 통합 도구 사용, 또는 자체 통합 도구 가능  
- **초장 텍스트 처리**: Qwen3-Next는 최대 262,144 토큰의 맥락 길이를 네이티브 지원  
  - 입력과 출력 포함 총 길이가 이 제한을 크게 초과하는 대화의 경우, YaRN 같은 RoPE 스케일링 기술을 사용하여 장문 텍스트 효과적 처리 추천  
  - YaRN을 사용한 맥락 길이 최대 100만 토큰의 모델 성능 검증  
  - YaRN은 transformers, vllm, sglang 같은 여러 추론 프레임워크에서 현재 지원  
  - 지원 프레임워크에서 YaRN을 활성화하는 두 가지 접근법은 모델 파일 수정 또는 명령줄 인수 전달  
  - config.json 파일에서 rope_scaling 필드 추가  
  - vllm의 경우 명령줄 인수 사용  
  - sglang의 경우 명령줄 인수 사용  
  - 모든 주목할 만한 오픈소스 프레임워크는 정적 YaRN을 구현하여 입력 길이에 관계없이 스케일링 팩터가 일정하게 유지되며, 짧은 텍스트 성능에 잠재적 영향  
  - 장맥락 처리 필요 시에만 rope_scaling 설정 추가 권장  
  - factor를 필요에 따라 수정 추천하며, 예를 들어 애플리케이션의 일반 맥락 길이가 524,288 토큰이면 factor를 2.0으로 설정  
  
### 요약  
  
- Qwen3-Next는 어텐션 메커니즘의 혁신을 도입한 선형 어텐션과 어텐션 게이트를 포함한 주요 모델 아키텍처 도약을 나타내며, MoE 설계에서 희소성 증가  
- Qwen3-Next-80B-A3B는 thinking과 non-thinking 모드 모두에서 더 큰 Qwen3-235B-A22B-2507과 동등한 성능을 제공하면서 롱컨텍스트 시나리오에서 상당히 빠른 추론 제공  
- 이 릴리스로 오픈소스 커뮤니티에 첨단 아키텍처 발전을 강화하여 최첨단 아키텍처 발전과 함께 진화하고자 함

## Comments


### Comment 43759

- Author: neo
- Created: 2025-09-13T09:51:26+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45219228) 
* Qwen3-Next의 가장 멋진 부분은 linear attention 이후에 MTP(Multi-Token Prediction)를 도입하면서도 추가적 un-embedding matrix를 도입하지 않는 점임 Deepseek R1도 61번째 레이어에 MTP가 적용되어 있지만 embed_tokens와 shared_head.head라는 큰 텐서(약 2GB FP8 크기)가 추가되므로, Qwen3-Next가 훨씬 더 적은 활성 파라미터로 MTP를 처리해 GB 단위로 메모리를 절약하게 됨 이 덕분에 추론 속도가 크게 빨라짐
  * MTP가 추론 단계에서 실제로 어떤 이점을 주는지 궁금함, 단지 pretraining 효율성에만 관련된 것인지 알고 싶음
  * MTP와 Medusa heads의 차이점이 뭔지, 또 이 모델이 speculative decoding을 “네이티브”하게 지원하는지 궁금함 vllm에서 이 모델을 돌리면 이미 MTP가 적용되어 있어서 speculative decoding의 장점을 바로 누릴 수 있는지 알고 싶음
  * 이 모든 용어들에 대해 한 번에 알기 쉽게 설명해주는 자료가 있으면 알려주면 좋겠음
* Alibaba가 정말 놀라운 모델을 계속 내놓는 중임 Qwen3-Next-80B-A3B를 Qwen chat에서 써봤는데 속도가 무척 빠르고, 품질 면에서도 Qwen3-235B-A22B와 비슷한 것 같음 어떻게 이 정도를 구현했는지 인상적임 벤치마크가 Artificial analysis에 올라오는 것도 기대 중임 Qwen Chat에 따르면 Qwen3-Next의 한계는 context length 최대 262,144 token, summary generation 최대 32,768 token임 Qwen3-235B-A22B 대비 context는 2배, summary는 4배임 긴 문맥 이해와 복잡한 과제 처리가 강점임 그래도 나는 Qwen2.5-Turbo를 계속 쓸 예정임 1M token context를 지원하는 몇 안 되는 모델이라서, 큰 PDF를 올려 놓고 챕터 간 질문하는 내 환경엔 더 적합함
  * Frontier 모델들에서 긴 context를 지원한다 해도 실제로는 context 길이가 길어질수록 정확도가 심하게 떨어지는 경우가 많은 것 같음 10M context를 지원한다고 해도 context를 최대로 채우면 제대로 동작하지 않는 것이 현실임 다른 사람들의 의견도 궁금함
  * 모델 카드를 좀 보면 Qwen3-Next 역시 YaRN을 써서 최대 1M context length까지 확장될 수 있음 공식 문구에 따르면, Qwen3-Next는 기본적으로 262,144 token까지 context 지원하며, 입력+출력 토큰의 총합이 이를 크게 넘을 때는 RoPE scaling이나 YaRN 방법을 통해 1M 토큰까지 처리 검증됨 [출처](https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct#processing-ultra-long-texts)
  * Alibaba의 독점 모델들도 성능이 정말 좋고 은근히 잘 알려지지 않음 벤치마크에도 거의 등장하지 않음 Qwen3-coder-plus가 오픈소스 qwen3보다 훨씬 좋고, Qwen3 max도 SOTA 모델과 겨룰 수준임
  * PDF 데이터를 Qwen에 넣기 전 어떻게 준비하는지 방법이 궁금함
* llm 명령으로 Qwen3-Next-80B-A3B-Thinking로 “spongebob의 ASCII”를 요청했더니 아주 기본적인 모양만 나옴 Qwen3-Coder-480B-A35B-Instruct로는 훨씬 완성도 높은 Spongebob ASCII가 생성됨 밤에 여러 번 실험했을 땐 Qwen3-coder에서 다수의 ASCII가 다리 부분이 빠지는 등 마무리가 제대로 안 됐지만, 아침엔 같은 프롬프트로 한 번에 완벽하게 나옴 혹시 리소스(서버, API) 점유율이나 상태가 응답 품질에 영향을 주는지, 아니면 순전히 운의 문제인지 궁금했음 몇 분 뒤 다시 해보니 실패했으니 아마도 10번 중 1번 정도 챈스이고, Qwen3-next에선 거의 안 나오는 정도임
  * [SpongeBob ASCII](https://www.asciiart.eu/cartoons/spongebob-squarepants)가 모델에 통째로 암기되어 있는 느낌임
  * Kimi K2와 Qwen Coder(혹은 다른 연관 모델) 사이에 distillation이나 학습 데이터 공유가 있다 생각함 대부분 LLM을 써봤지만 Kimi K2에서만 Qwen3-coder와 똑같은 SpongeBob ASCII가 나왔음
kimi K2 사용시에도 SpongeBob ASCII가 정확히 동일하게 생성됨
  * SpongeBob ASCII 테스트는 Qwen 공식 SNS에서 가져온 것으로, 사실상 주입된 암기력(rote-memorization) 측정용 probe임 규모가 큰 dense 모델이라면 파라미터 용량으로 통째로 외울 수 있으나, Qwen3의 sparse-MoE 구조에서는 expert 선택이나 토큰 샘플링 등 여러 노이즈가 추가되어 꼼꼼한 그림 alignment가 더 잘 깨질 수밖에 없음 또, gated-attention과 multi-token head 같은 새 구조까지 얹어져서 단 한 번의 불운한 expert routing만으로도 그림 배치가 틀어질 수 있음 그리고 Qwen3-coder는 이걸 특별히 학습해서 비교가 불공정해짐 Qwen3 계열 다른 모델들의 ASCII 결과도 비교해봄 상당히 각기 다르게 나옴
* Qwen 덕분에 MoE가 정말 멀리 왔다는 사실이 놀라움 Qwen3-Next는 기존의 72B dense 모델을 확실히 능가하고, VRAM과 CPU를 잘 offload 하면 14B 모델보다도 빠르게 동작함 이 정도 효율성은 정말 대단함
  * Qwen 덕분에 LLM 발전이 이뤄지는 게 아니라, SOTA LLM은 GPT-4부터 이미 MoE임 HN이 트렌드에 너무 뒤처져서 AI 주제에서 쓸데없는 논평이 난무하게 된 점이 안타깝다는 생각임
  * 돌아보면 작년에 Meta가 dense 405B 모델을 훈련하는 데 엄청난 리소스를 쏟았던 것이 오히려 웃긴 일임 모델이 크기만 하고 실제 성능은 1/10 크기 모델보다도 떨어지고, 현실적으로 어떤 하드웨어에서도 도저히 쓸 만한 속도로 돌릴 수가 없음
* Qwen3 Next를 Brokk Power Ranking 오픈라운드(코딩 벤치마크)에 추가함 성능상으론 GPT-OSS-20b와 비슷함 오픈 소스 모델 전체 성능 결과는 [여기](https://brokk.ai/power-ranking?version=openround&models=ds-r1.1%2Cds-v3.1%2Cglm4.5%2Cglm4.5-air%2Cgpt-oss-120b%2Cgpt-oss-20b%2Ck2%2Cq3c%2Cq3c-fp8%2Cq3next%2Cr1%2Cv3)에서 확인할 수 있음
  * 여러 언어가 추가된다면 더 유용한 벤치마크가 될 것 같음 현재는 자바만 평가하는데, 실생활에서 나는 자바가 아니라 다른 언어를 주로 써서 벤치마크 결과와 실제 경험이 일치하지 않음
  * 등록된 Kimi K2가 최신 버전인지, 예전 Kimi k2인지 궁금함
* Oracle이 이번 주에 데이터센터 수요가 급증할 것이라 전망하고 주가가 상승 중임 만약 LLM의 효율성 10배 향상이 사실이라면 Nvidia, Oracle, Coreweave 등에 대한 수요가 줄어들 수 있음
  * [Jevons 파라독스](https://en.wikipedia.org/wiki/Jevons_paradox) 같은 경제 현상을 생각해봐야 할 듯함
  * Oracle 전망과 별개로, 효율성 향상이 곧바로 수요 감소로 이어지지는 않는다고 봄 Jevons 파라독스처럼, 오히려 효율이 늘면 더 많이 쓰게 될 가능성도 있음
  * deepseek-r1 관련해서도 같은 얘기가 나왔지만 현실은 변하지 않았음 만약 모델을 10배 더 효율적으로 만들면, 모두 그냥 10배 더 큰 모델을 훈련하려 들 거임 플레이어들이 어느 시점에서 “이 정도 크기면 됐다”고 멈추지 않을 것임 scaling이 성능에 계속 영향을 준다면 말임
  * 절대 그렇지 않음 시장 행태를 보면 항상 최고의 품질에 기꺼이 비용을 지불하고, 가격은 대체로 그대로임 새로운 모델이 출시되면 낮은 품질의(싼) 오래된 모델은 바로 외면당하고, 사람들은 같은 가격에 더 나은 모델만 찾음 이번에도 비슷하게 흘러갈 것임
  * 만약 AI 버블이 터져서 데이터센터와 GPU가 남아돈다면, 이를 노리고 투자 이득을 활용할 방법이 뭐가 있을지 궁금함
* Gated Delta Network가 궁금하다면 여기 논문 참고 [arxiv 링크](https://arxiv.org/pdf/2412.06464)
  * Gated Attention에 대한 논문은 [여기](https://arxiv.org/abs/2505.06708)에서 참고할 수 있음
* Qwen3-Next가 꽤 인상적인데, 더 좋은 아키텍처가 앞으로의 혁신을 이끈다고 생각함 GPT OSS 120B처럼 100B 넘는 파라미터가 꼭 필요한 것도 아니라는 느낌임
  * 확실히 파라미터는 더 많을수록 좋음 파라미터가 낮은 모델은 환각(hallucination)이 잦음 다만, 액티브 파라미터가 적고 routing만 좋으면 괜찮을 수도 있음
  * 새로운 아키텍처가 멋지고, 오픈에 바로 공개되는 것도 신기함 다만 Qwen계열 모델은 오버핏이 심한 편임 특정 작업만 잘 하는 경우가 많고, 폐쇄형 모델보다 일반화에는 한계가 큼 단지 스케일의 문제인지, 아니면 학습 레시피/방법 차이까지 원인을 잘 모르겠음 OOD(out-of-distribution)로 테스트해보면 가치가 급격히 떨어지고, 폐쇄형 모델들은 여전히 강점을 보임
* 예측: AI가 앞으로 4년 내 현 SOTA 모델보다 15 IQ 포인트 더 높은 수준(맥락 길이도 훨씬 길어진 상태)에서 범용 재화처럼 누구나 쉽게 접근할 수 있게 될 것임 그 시점에서 synthetic data 학습에 대한 개선이 한계에 다다르면(“실제(real) 데이터”는 이미 다 소진된 뒤), 대형 자본 모델의 출력물을 활용해 저렴하게 오픈소스 모델이 훈련될 것임 그 후에는 competitive reinforcement learning으로 범용 지능(AI) 훈련하는 방법이 나오기 전까지 AI 발전이 정체될 것임 (알파고가 그렇게 훈련된 것처럼) 이 방식이 등장하면, 더 이상 방대한 학습 데이터가 필요 없게 되고, 진짜 AGI(범용 인공지능)가 나오게 될 것으로 봄
  * “실제 데이터”를 다 썼다는 걸 이해 못 하겠음 인터넷에 매일 새로운 지식, 과학 논문, 영상이 쏟아지는데 어떻게 데이터가 고갈된다는 것인지 의문임
  * 만약 현재 최첨단 모델이 인간 IQ 기준 120점 수준(정확한지는 모르지만 [여기](https://www.trackingai.org/home) 기준 그렇다 치면), 앞으로 135 IQ 수준의 초몰입형 봇이 대량 등장하게 될 거임 그 상황이 실제로 어떤 의미일지 상상조차 어려움
* 80B 모델이긴 하지만, 요즘 난 MacBook Pro(M4, 64GB)에 편하게 돌아가는 32B 이하 모델을 눈여겨보고 있음 ollama를 매일 스팸 필터링용으로 쓰는데, gemma3:27b가 훌륭하고 gpt-oss:20b는 속도까지 빨라서 자주 씀
  * Ollama로 스팸 필터링을 어떻게 활용하고 있는지 자세히 설명해주면 좋겠음
  * 모델의 전체 파라미터는 80B지만 인퍼런스 때 활성되는 건 3B 정도임 8GB 짜리 Nvidia 카드에서도 예전 2507 Qwen3 30B를 잘 돌리고 있음
  * MoE 구조라서 아주 잘 돌아갈 것임