Qwen3-Max-Thinking 모델 공개

▲

GN⁺ 3달전 | parent | ★ favorite | on: Qwen3-Max-Thinking 모델 공개(qwen.ai)

Hacker News 의견들

유명한 사진에 대한 질문이 있었는데, 시스템이 ‘부적절한 콘텐츠’ 로 감지해 오류를 반환했음. 사용자는 왜 이런 이미지가 국제적으로 중요한지 궁금해했음
- 이건 별도의 안전 메커니즘 때문으로 보임. 실제로 Qwen의 이전 모델들은 중국 외부에서 서비스될 때는 천안문 관련 주제도 자유롭게 다뤘음. 예를 들어 Qwen3 235B A22B Instruct 2507은 ‘탱크맨’ 사진의 역사적 맥락과 중국 내 검열 상황까지 자세히 설명함. 이런 검열 자체가 상징성을 더 강화시켰다는 분석도 있었음
- 중국 기업이라면 법적으로 검열을 따라야 하므로 놀랄 일은 아님. 다만 이런 제약이 코딩 작업 같은 비정치적 영역에 어떤 영향을 줄지가 궁금함. 사실 미국의 Anthropic도 불법 행위를 막기 위한 ‘정렬(Alignment)’ 형태의 제한을 두고 있음
- 미국의 LLM들도 비슷한 검열 문제를 겪고 있음. 다만 검열 대상이 다를 뿐임
- 연구자 중에 LLM의 악성 행위 삽입(backdoor) 가능성을 연구한 사람이 있는지 궁금함. 일부 논문에서는 소수의 악의적 예시만으로도 모델이 특정 ‘트리거’ 문구에 반응하도록 학습시킬 수 있다고 함. 심지어 토크나이저 파일을 조작해 API 비용 증가나 안전 필터 약화 같은 부작용을 유발할 수도 있음. 이런 논의가 필요한 시점이라 생각함
- 이런 주제는 자주 논의를 탈선시키므로, 이제는 중국 AI 모델의 기술적 측면으로 대화를 돌리자는 의견도 있었음
요즘 모델들의 토큰 사용량이 궁금해짐. ‘추론 능력 향상’이나 ‘도구 활용 증가’는 모델 자체의 개선이라기보다, 더 많은 토큰을 써서 모델을 잘 유도하는 방식임. 즉 “적게 써서 더 얻는” 게 아니라 “더 써서 더 얻는” 구조임
- 이런 점이 AGI(인공 일반 지능) 의 현실적 한계를 보여준다고 생각함. 계산 자원이 너무 많이 필요하면, 기술적 돌파가 있어도 실제 세상은 당분간 크게 변하지 않을 수 있음. 결국 추론용 컴퓨팅 자원이 병목이 될 가능성이 있음
- Gemini에게 검색 대비 전력 소모를 물어봤는데, 의외로 AI 검색이 전통 검색보다 효율적이라고 답했음. 또 Perplexity에서 추천받은 arXiv 논문 중 Sara Hooker의 On the Slow Death of Scaling이 인상적이었음. 이 논문은 작은 모델이 대형 모델을 능가하는 사례를 보여주며, 향후 발전은 계산력보다 알고리즘 혁신에 달렸다고 주장함
- 모델 발전을 평가할 새로운 지표가 필요하다고 느낌. 단순 벤치마크 점수보다 GPU 사용량, 속도, 비용 등을 함께 고려해야 함
- 이런 효율성과 성능의 균형을 설명하는 개념으로 Pareto frontier가 적절하다는 의견이 있었음
- 일부 모델은 토큰 낭비가 심한 추론 과정을 보여서, 실제로는 비효율적이라는 지적도 있었음
검색 기능이 꺼져 있을 때는 Opus 4.5보다 성능이 낮지만, 켜면 더 나은 이유가 뭘까 궁금했음. 혹시 중국 인터넷의 콘텐츠 품질이 더 좋은 걸까 생각함
- 그건 과한 추론임. 단순히 검색 성능과 통합 품질이 더 좋을 가능성이 큼. 모델은 다국어를 지원하므로 전 세계 웹사이트를 잘 처리함
- 나는 Kagi Assistant를 쓰는데, 학술 자료만 검색하도록 필터링할 수 있어서 만족스러움. 다만 언젠가 학술 논문조차 AI 생성물로 오염될까 걱정됨. 그래도 결국 해결책을 찾게 될 거라 믿음
- “아마 Reddit이 없어서 그런 걸지도?”라는 농담도 있었음
Qwen 모델의 가격 정책이 궁금했음. Qwen Max와 같은 요금인지, 또 왜 중국 내 가격이 훨씬 싼지 물어봄
Alibaba Cloud 모델 페이지
- 중국 내에서는 AI 가격 전쟁이 치열하고, 정부가 컴퓨팅 바우처와 보조금을 통해 인프라 비용을 낮추고 있음.
  관련 기사
- 아마도 국내 개발자 지원을 위한 보조금일 가능성이 큼
- 에너지 비용이 더 저렴한 것도 한 요인일 수 있음
- 지역·검색 조건에 따라 가격이 달라지는 감시형 가격 책정(surveillance pricing) 개념을 소개하며, 관련 영상 링크를 공유함
HN에서는 Opus 4.5를 사실상 표준 모델로 보고, 중국 모델은 8개월 이상 뒤처졌다고 여겨왔음. 이번 모델이 그 격차를 좁힐지 궁금함
- 공개된 벤치마크 기준으로는 여전히 약 6개월 정도 뒤처진다고 보임
- 개인적으로는 GPT-5.2가 더 뛰어나고 저렴하다고 느낌. HN의 Claude Code 편향은 구독자들의 자기합리화일 수도 있음. 그래도 Opus 4.5는 빠르고 품질이 높아 실제 사용성은 훌륭함.
  반면 Gemini 3 Pro/Flash는 여전히 한 단계 아래지만, 작년 대비하면 매우 빠르고 저렴함. 결국 벤치마크는 참고용일 뿐, 실제 체감 품질은 주관적임
작년 가을 CLI 에이전트 trae를 통해 Qwen3-coder를 Rust 프로젝트에 사용했는데, 코드 생성과 리팩터링 능력이 Gemini 2.5 Pro나 Claude Opus 3.5보다 뛰어났음.
Linux 공유 메모리 IPC 호출 추가나 x86_64 SIMD 최적화까지 잘 처리했음. 다만 토큰 캐시와 대형 컨텍스트 창을 쓰다 보니 월 수백 달러의 비용이 들었음
Hugging Face 링크가 보이지 않아 Qwen이 더 이상 오픈 모델을 공개하지 않는지 궁금했음
- Max 버전은 원래 비공개 모델이었음
- 모든 모델이 공개 가중치로 배포되는 건 아니며, 이번 모델도 아직 오픈웨이트가 아님으로 보임
Open Router에서 사용 가능한지 묻는 사람도 있었음. Gemini 3 Flash와의 비교를 기대함
Mafia Arena
- 아직은 등록되지 않았지만 곧 추가될 것으로 보임
- 모델 비교용으로 여러 벤치마크 사이트를 공유함:
  lmarena.ai, safe.ai 대시보드,
  Clock Draw Test, EQBench, OCR Arena
LLM 벤치마크는 마치 개발자 면접 같음. 복잡한 분산 알고리즘 문제는 잘 푸는데, 실제 업무에서는 버튼 하나 추가하면서 Tailwind 클래스 재사용을 깜빡하는 식의 괴리가 있음
모델 크기를 묻는 질문이 있었음
- Qwen2.5는 18조 토큰으로 학습됐지만, Qwen3는 36조 토큰으로 거의 두 배 규모임. 119개 언어와 방언을 포함함
  공식 블로그