Hacker News 의견
  • Qwen3-Next의 가장 멋진 부분은 linear attention 이후에 MTP(Multi-Token Prediction)를 도입하면서도 추가적 un-embedding matrix를 도입하지 않는 점임 Deepseek R1도 61번째 레이어에 MTP가 적용되어 있지만 embed_tokens와 shared_head.head라는 큰 텐서(약 2GB FP8 크기)가 추가되므로, Qwen3-Next가 훨씬 더 적은 활성 파라미터로 MTP를 처리해 GB 단위로 메모리를 절약하게 됨 이 덕분에 추론 속도가 크게 빨라짐
    • MTP가 추론 단계에서 실제로 어떤 이점을 주는지 궁금함, 단지 pretraining 효율성에만 관련된 것인지 알고 싶음
    • MTP와 Medusa heads의 차이점이 뭔지, 또 이 모델이 speculative decoding을 “네이티브”하게 지원하는지 궁금함 vllm에서 이 모델을 돌리면 이미 MTP가 적용되어 있어서 speculative decoding의 장점을 바로 누릴 수 있는지 알고 싶음
    • 이 모든 용어들에 대해 한 번에 알기 쉽게 설명해주는 자료가 있으면 알려주면 좋겠음
  • Alibaba가 정말 놀라운 모델을 계속 내놓는 중임 Qwen3-Next-80B-A3B를 Qwen chat에서 써봤는데 속도가 무척 빠르고, 품질 면에서도 Qwen3-235B-A22B와 비슷한 것 같음 어떻게 이 정도를 구현했는지 인상적임 벤치마크가 Artificial analysis에 올라오는 것도 기대 중임 Qwen Chat에 따르면 Qwen3-Next의 한계는 context length 최대 262,144 token, summary generation 최대 32,768 token임 Qwen3-235B-A22B 대비 context는 2배, summary는 4배임 긴 문맥 이해와 복잡한 과제 처리가 강점임 그래도 나는 Qwen2.5-Turbo를 계속 쓸 예정임 1M token context를 지원하는 몇 안 되는 모델이라서, 큰 PDF를 올려 놓고 챕터 간 질문하는 내 환경엔 더 적합함
    • Frontier 모델들에서 긴 context를 지원한다 해도 실제로는 context 길이가 길어질수록 정확도가 심하게 떨어지는 경우가 많은 것 같음 10M context를 지원한다고 해도 context를 최대로 채우면 제대로 동작하지 않는 것이 현실임 다른 사람들의 의견도 궁금함
    • 모델 카드를 좀 보면 Qwen3-Next 역시 YaRN을 써서 최대 1M context length까지 확장될 수 있음 공식 문구에 따르면, Qwen3-Next는 기본적으로 262,144 token까지 context 지원하며, 입력+출력 토큰의 총합이 이를 크게 넘을 때는 RoPE scaling이나 YaRN 방법을 통해 1M 토큰까지 처리 검증됨 출처
    • Alibaba의 독점 모델들도 성능이 정말 좋고 은근히 잘 알려지지 않음 벤치마크에도 거의 등장하지 않음 Qwen3-coder-plus가 오픈소스 qwen3보다 훨씬 좋고, Qwen3 max도 SOTA 모델과 겨룰 수준임
    • PDF 데이터를 Qwen에 넣기 전 어떻게 준비하는지 방법이 궁금함
  • llm 명령으로 Qwen3-Next-80B-A3B-Thinking로 “spongebob의 ASCII”를 요청했더니 아주 기본적인 모양만 나옴 Qwen3-Coder-480B-A35B-Instruct로는 훨씬 완성도 높은 Spongebob ASCII가 생성됨 밤에 여러 번 실험했을 땐 Qwen3-coder에서 다수의 ASCII가 다리 부분이 빠지는 등 마무리가 제대로 안 됐지만, 아침엔 같은 프롬프트로 한 번에 완벽하게 나옴 혹시 리소스(서버, API) 점유율이나 상태가 응답 품질에 영향을 주는지, 아니면 순전히 운의 문제인지 궁금했음 몇 분 뒤 다시 해보니 실패했으니 아마도 10번 중 1번 정도 챈스이고, Qwen3-next에선 거의 안 나오는 정도임
    • SpongeBob ASCII가 모델에 통째로 암기되어 있는 느낌임
    • Kimi K2와 Qwen Coder(혹은 다른 연관 모델) 사이에 distillation이나 학습 데이터 공유가 있다 생각함 대부분 LLM을 써봤지만 Kimi K2에서만 Qwen3-coder와 똑같은 SpongeBob ASCII가 나왔음 kimi K2 사용시에도 SpongeBob ASCII가 정확히 동일하게 생성됨
    • SpongeBob ASCII 테스트는 Qwen 공식 SNS에서 가져온 것으로, 사실상 주입된 암기력(rote-memorization) 측정용 probe임 규모가 큰 dense 모델이라면 파라미터 용량으로 통째로 외울 수 있으나, Qwen3의 sparse-MoE 구조에서는 expert 선택이나 토큰 샘플링 등 여러 노이즈가 추가되어 꼼꼼한 그림 alignment가 더 잘 깨질 수밖에 없음 또, gated-attention과 multi-token head 같은 새 구조까지 얹어져서 단 한 번의 불운한 expert routing만으로도 그림 배치가 틀어질 수 있음 그리고 Qwen3-coder는 이걸 특별히 학습해서 비교가 불공정해짐 Qwen3 계열 다른 모델들의 ASCII 결과도 비교해봄 상당히 각기 다르게 나옴
  • Qwen 덕분에 MoE가 정말 멀리 왔다는 사실이 놀라움 Qwen3-Next는 기존의 72B dense 모델을 확실히 능가하고, VRAM과 CPU를 잘 offload 하면 14B 모델보다도 빠르게 동작함 이 정도 효율성은 정말 대단함
    • Qwen 덕분에 LLM 발전이 이뤄지는 게 아니라, SOTA LLM은 GPT-4부터 이미 MoE임 HN이 트렌드에 너무 뒤처져서 AI 주제에서 쓸데없는 논평이 난무하게 된 점이 안타깝다는 생각임
    • 돌아보면 작년에 Meta가 dense 405B 모델을 훈련하는 데 엄청난 리소스를 쏟았던 것이 오히려 웃긴 일임 모델이 크기만 하고 실제 성능은 1/10 크기 모델보다도 떨어지고, 현실적으로 어떤 하드웨어에서도 도저히 쓸 만한 속도로 돌릴 수가 없음
  • Qwen3 Next를 Brokk Power Ranking 오픈라운드(코딩 벤치마크)에 추가함 성능상으론 GPT-OSS-20b와 비슷함 오픈 소스 모델 전체 성능 결과는 여기에서 확인할 수 있음
    • 여러 언어가 추가된다면 더 유용한 벤치마크가 될 것 같음 현재는 자바만 평가하는데, 실생활에서 나는 자바가 아니라 다른 언어를 주로 써서 벤치마크 결과와 실제 경험이 일치하지 않음
    • 등록된 Kimi K2가 최신 버전인지, 예전 Kimi k2인지 궁금함
  • Oracle이 이번 주에 데이터센터 수요가 급증할 것이라 전망하고 주가가 상승 중임 만약 LLM의 효율성 10배 향상이 사실이라면 Nvidia, Oracle, Coreweave 등에 대한 수요가 줄어들 수 있음
    • Jevons 파라독스 같은 경제 현상을 생각해봐야 할 듯함
    • Oracle 전망과 별개로, 효율성 향상이 곧바로 수요 감소로 이어지지는 않는다고 봄 Jevons 파라독스처럼, 오히려 효율이 늘면 더 많이 쓰게 될 가능성도 있음
    • deepseek-r1 관련해서도 같은 얘기가 나왔지만 현실은 변하지 않았음 만약 모델을 10배 더 효율적으로 만들면, 모두 그냥 10배 더 큰 모델을 훈련하려 들 거임 플레이어들이 어느 시점에서 “이 정도 크기면 됐다”고 멈추지 않을 것임 scaling이 성능에 계속 영향을 준다면 말임
    • 절대 그렇지 않음 시장 행태를 보면 항상 최고의 품질에 기꺼이 비용을 지불하고, 가격은 대체로 그대로임 새로운 모델이 출시되면 낮은 품질의(싼) 오래된 모델은 바로 외면당하고, 사람들은 같은 가격에 더 나은 모델만 찾음 이번에도 비슷하게 흘러갈 것임
    • 만약 AI 버블이 터져서 데이터센터와 GPU가 남아돈다면, 이를 노리고 투자 이득을 활용할 방법이 뭐가 있을지 궁금함
  • Gated Delta Network가 궁금하다면 여기 논문 참고 arxiv 링크
    • Gated Attention에 대한 논문은 여기에서 참고할 수 있음
  • Qwen3-Next가 꽤 인상적인데, 더 좋은 아키텍처가 앞으로의 혁신을 이끈다고 생각함 GPT OSS 120B처럼 100B 넘는 파라미터가 꼭 필요한 것도 아니라는 느낌임
    • 확실히 파라미터는 더 많을수록 좋음 파라미터가 낮은 모델은 환각(hallucination)이 잦음 다만, 액티브 파라미터가 적고 routing만 좋으면 괜찮을 수도 있음
    • 새로운 아키텍처가 멋지고, 오픈에 바로 공개되는 것도 신기함 다만 Qwen계열 모델은 오버핏이 심한 편임 특정 작업만 잘 하는 경우가 많고, 폐쇄형 모델보다 일반화에는 한계가 큼 단지 스케일의 문제인지, 아니면 학습 레시피/방법 차이까지 원인을 잘 모르겠음 OOD(out-of-distribution)로 테스트해보면 가치가 급격히 떨어지고, 폐쇄형 모델들은 여전히 강점을 보임
  • 예측: AI가 앞으로 4년 내 현 SOTA 모델보다 15 IQ 포인트 더 높은 수준(맥락 길이도 훨씬 길어진 상태)에서 범용 재화처럼 누구나 쉽게 접근할 수 있게 될 것임 그 시점에서 synthetic data 학습에 대한 개선이 한계에 다다르면(“실제(real) 데이터”는 이미 다 소진된 뒤), 대형 자본 모델의 출력물을 활용해 저렴하게 오픈소스 모델이 훈련될 것임 그 후에는 competitive reinforcement learning으로 범용 지능(AI) 훈련하는 방법이 나오기 전까지 AI 발전이 정체될 것임 (알파고가 그렇게 훈련된 것처럼) 이 방식이 등장하면, 더 이상 방대한 학습 데이터가 필요 없게 되고, 진짜 AGI(범용 인공지능)가 나오게 될 것으로 봄
    • “실제 데이터”를 다 썼다는 걸 이해 못 하겠음 인터넷에 매일 새로운 지식, 과학 논문, 영상이 쏟아지는데 어떻게 데이터가 고갈된다는 것인지 의문임
    • 만약 현재 최첨단 모델이 인간 IQ 기준 120점 수준(정확한지는 모르지만 여기 기준 그렇다 치면), 앞으로 135 IQ 수준의 초몰입형 봇이 대량 등장하게 될 거임 그 상황이 실제로 어떤 의미일지 상상조차 어려움
  • 80B 모델이긴 하지만, 요즘 난 MacBook Pro(M4, 64GB)에 편하게 돌아가는 32B 이하 모델을 눈여겨보고 있음 ollama를 매일 스팸 필터링용으로 쓰는데, gemma3:27b가 훌륭하고 gpt-oss:20b는 속도까지 빨라서 자주 씀
    • Ollama로 스팸 필터링을 어떻게 활용하고 있는지 자세히 설명해주면 좋겠음
    • 모델의 전체 파라미터는 80B지만 인퍼런스 때 활성되는 건 3B 정도임 8GB 짜리 Nvidia 카드에서도 예전 2507 Qwen3 30B를 잘 돌리고 있음
    • MoE 구조라서 아주 잘 돌아갈 것임