3P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • 대규모 강화학습과 파라미터 확장을 통해 사실 지식, 복잡한 추론, 인간 선호 정렬 등 여러 영역에서 성능을 높인 최신 추론 중심 모델
  • 19개 벤치마크에서 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro 등과 유사하거나 일부 영역에서 상회하는 결과를 기록
  • 적응형 도구 사용 기능을 통해 대화 중 자동으로 검색, 메모리, 코드 인터프리터를 호출하며, 환각 감소와 실시간 정보 접근을 지원
  • 테스트 시점 확장(test-time scaling) 전략으로 추론 중 반복 계산을 줄이고, 자기 반성 기반 경험 축적 메커니즘을 통해 효율 향상
  • Qwen Chat과 API를 통해 즉시 사용 가능하며, OpenAI 및 Anthropic API와 호환되어 개발자들이 기존 워크플로에 쉽게 통합 가능

Qwen3-Max-Thinking 개요

  • Qwen3-Max-Thinking은 Qwen 시리즈의 최신 플래그십 추론 모델로, 강화학습과 대규모 연산 자원을 활용해 성능을 확장
    • 사실 지식, 복잡한 추론, 지시 따르기, 인간 선호 정렬, 에이전트 기능 등 여러 차원에서 개선
    • 19개 표준 벤치마크에서 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 유사한 수준의 성능 달성
  • 두 가지 주요 혁신으로 강화됨
    • 적응형 도구 사용(adaptive tool-use) : 필요 시 검색 및 코드 인터프리터를 자동 호출
    • 고급 테스트 시점 확장(test-time scaling) : 추론 중 추가 연산을 효율적으로 활용해 Gemini 3 Pro를 능가하는 성능 확보

벤치마크 성능 요약

  • 지식(knowledge) 영역에서는 MMLU-Pro 85.7, C-Eval 93.7 등으로 상위권 모델과 근접한 점수
  • STEM 분야에서는 GPQA 87.4, HLE 30.2로 일부 모델보다 낮지만 균형 잡힌 성능 유지
  • 추론(reasoning) 벤치마크에서 HMMT Nov 25 94.7, LiveCodeBench v6 85.9 등 높은 수치 기록
  • 지시 따르기 및 정렬(instruction following & alignment) 부문에서 Arena-Hard v2 90.2로 최고 수준
  • 도구 사용(tool use)에이전트 검색(agentic search) 에서도 경쟁 모델 대비 우수한 결과 일부 확인

적응형 도구 사용 기능

  • 사용자가 직접 도구를 선택하지 않아도 모델이 Search, Memory, Code Interpreter를 자동 활용
    • SearchMemory는 환각을 줄이고 실시간 정보 접근 및 개인화된 응답 제공
    • Code Interpreter는 코드 실행과 계산 기반 추론을 통해 복잡한 문제 해결 지원
  • 이러한 기능은 규칙 기반 및 모델 기반 피드백을 결합한 추가 학습 과정을 통해 강화됨
  • 결과적으로 자연스럽고 강력한 대화형 경험 제공

테스트 시점 확장 전략

  • 추론 중 추가 연산을 분배하여 성능을 높이는 방법으로, 단순 병렬 샘플링보다 효율적
  • 제안된 방식은 경험 축적 기반 다중 라운드(self-reflective multi-round) 접근을 사용
    • “take-experience” 메커니즘을 통해 이전 라운드의 핵심 통찰을 추출
    • 이미 도출된 결론을 반복하지 않고 미해결 불확실성에 집중
  • 동일한 토큰 소비로 더 높은 문맥 효율성을 달성
    • GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3으로 향상

개발 및 API 통합

  • Qwen Chat에서 즉시 사용 가능하며, 모델명은 qwen3-max-2026-01-23
  • Alibaba Cloud Model Studio를 통해 API 키 생성 후 사용 가능
  • OpenAI API와 완전 호환, Python 예시 코드 제공
    • enable_thinking 옵션을 통해 추론 모드 활성화 가능
  • Anthropic API 프로토콜과도 호환되어 Claude Code 환경에서도 동일하게 작동
    • 환경 변수 설정 후 claude 명령으로 실행 가능
Hacker News 의견들
  • 유명한 사진에 대한 질문이 있었는데, 시스템이 ‘부적절한 콘텐츠’ 로 감지해 오류를 반환했음. 사용자는 왜 이런 이미지가 국제적으로 중요한지 궁금해했음

    • 이건 별도의 안전 메커니즘 때문으로 보임. 실제로 Qwen의 이전 모델들은 중국 외부에서 서비스될 때는 천안문 관련 주제도 자유롭게 다뤘음. 예를 들어 Qwen3 235B A22B Instruct 2507은 ‘탱크맨’ 사진의 역사적 맥락과 중국 내 검열 상황까지 자세히 설명함. 이런 검열 자체가 상징성을 더 강화시켰다는 분석도 있었음
    • 중국 기업이라면 법적으로 검열을 따라야 하므로 놀랄 일은 아님. 다만 이런 제약이 코딩 작업 같은 비정치적 영역에 어떤 영향을 줄지가 궁금함. 사실 미국의 Anthropic도 불법 행위를 막기 위한 ‘정렬(Alignment)’ 형태의 제한을 두고 있음
    • 미국의 LLM들도 비슷한 검열 문제를 겪고 있음. 다만 검열 대상이 다를 뿐임
    • 연구자 중에 LLM의 악성 행위 삽입(backdoor) 가능성을 연구한 사람이 있는지 궁금함. 일부 논문에서는 소수의 악의적 예시만으로도 모델이 특정 ‘트리거’ 문구에 반응하도록 학습시킬 수 있다고 함. 심지어 토크나이저 파일을 조작해 API 비용 증가나 안전 필터 약화 같은 부작용을 유발할 수도 있음. 이런 논의가 필요한 시점이라 생각함
    • 이런 주제는 자주 논의를 탈선시키므로, 이제는 중국 AI 모델의 기술적 측면으로 대화를 돌리자는 의견도 있었음
  • 요즘 모델들의 토큰 사용량이 궁금해짐. ‘추론 능력 향상’이나 ‘도구 활용 증가’는 모델 자체의 개선이라기보다, 더 많은 토큰을 써서 모델을 잘 유도하는 방식임. 즉 “적게 써서 더 얻는” 게 아니라 “더 써서 더 얻는” 구조임

    • 이런 점이 AGI(인공 일반 지능) 의 현실적 한계를 보여준다고 생각함. 계산 자원이 너무 많이 필요하면, 기술적 돌파가 있어도 실제 세상은 당분간 크게 변하지 않을 수 있음. 결국 추론용 컴퓨팅 자원이 병목이 될 가능성이 있음
    • Gemini에게 검색 대비 전력 소모를 물어봤는데, 의외로 AI 검색이 전통 검색보다 효율적이라고 답했음. 또 Perplexity에서 추천받은 arXiv 논문 중 Sara Hooker의 On the Slow Death of Scaling이 인상적이었음. 이 논문은 작은 모델이 대형 모델을 능가하는 사례를 보여주며, 향후 발전은 계산력보다 알고리즘 혁신에 달렸다고 주장함
    • 모델 발전을 평가할 새로운 지표가 필요하다고 느낌. 단순 벤치마크 점수보다 GPU 사용량, 속도, 비용 등을 함께 고려해야 함
    • 이런 효율성과 성능의 균형을 설명하는 개념으로 Pareto frontier가 적절하다는 의견이 있었음
    • 일부 모델은 토큰 낭비가 심한 추론 과정을 보여서, 실제로는 비효율적이라는 지적도 있었음
  • 검색 기능이 꺼져 있을 때는 Opus 4.5보다 성능이 낮지만, 켜면 더 나은 이유가 뭘까 궁금했음. 혹시 중국 인터넷의 콘텐츠 품질이 더 좋은 걸까 생각함

    • 그건 과한 추론임. 단순히 검색 성능과 통합 품질이 더 좋을 가능성이 큼. 모델은 다국어를 지원하므로 전 세계 웹사이트를 잘 처리함
    • 나는 Kagi Assistant를 쓰는데, 학술 자료만 검색하도록 필터링할 수 있어서 만족스러움. 다만 언젠가 학술 논문조차 AI 생성물로 오염될까 걱정됨. 그래도 결국 해결책을 찾게 될 거라 믿음
    • “아마 Reddit이 없어서 그런 걸지도?”라는 농담도 있었음
  • Qwen 모델의 가격 정책이 궁금했음. Qwen Max와 같은 요금인지, 또 왜 중국 내 가격이 훨씬 싼지 물어봄
    Alibaba Cloud 모델 페이지

    • 중국 내에서는 AI 가격 전쟁이 치열하고, 정부가 컴퓨팅 바우처와 보조금을 통해 인프라 비용을 낮추고 있음.
      관련 기사
    • 아마도 국내 개발자 지원을 위한 보조금일 가능성이 큼
    • 에너지 비용이 더 저렴한 것도 한 요인일 수 있음
    • 지역·검색 조건에 따라 가격이 달라지는 감시형 가격 책정(surveillance pricing) 개념을 소개하며, 관련 영상 링크를 공유함
  • HN에서는 Opus 4.5를 사실상 표준 모델로 보고, 중국 모델은 8개월 이상 뒤처졌다고 여겨왔음. 이번 모델이 그 격차를 좁힐지 궁금함

    • 공개된 벤치마크 기준으로는 여전히 약 6개월 정도 뒤처진다고 보임
    • 개인적으로는 GPT-5.2가 더 뛰어나고 저렴하다고 느낌. HN의 Claude Code 편향은 구독자들의 자기합리화일 수도 있음. 그래도 Opus 4.5는 빠르고 품질이 높아 실제 사용성은 훌륭함.
      반면 Gemini 3 Pro/Flash는 여전히 한 단계 아래지만, 작년 대비하면 매우 빠르고 저렴함. 결국 벤치마크는 참고용일 뿐, 실제 체감 품질은 주관적임
  • 작년 가을 CLI 에이전트 trae를 통해 Qwen3-coder를 Rust 프로젝트에 사용했는데, 코드 생성과 리팩터링 능력이 Gemini 2.5 Pro나 Claude Opus 3.5보다 뛰어났음.
    Linux 공유 메모리 IPC 호출 추가나 x86_64 SIMD 최적화까지 잘 처리했음. 다만 토큰 캐시와 대형 컨텍스트 창을 쓰다 보니 월 수백 달러의 비용이 들었음

  • Hugging Face 링크가 보이지 않아 Qwen이 더 이상 오픈 모델을 공개하지 않는지 궁금했음

    • Max 버전은 원래 비공개 모델이었음
    • 모든 모델이 공개 가중치로 배포되는 건 아니며, 이번 모델도 아직 오픈웨이트가 아님으로 보임
  • Open Router에서 사용 가능한지 묻는 사람도 있었음. Gemini 3 Flash와의 비교를 기대함
    Mafia Arena

  • LLM 벤치마크는 마치 개발자 면접 같음. 복잡한 분산 알고리즘 문제는 잘 푸는데, 실제 업무에서는 버튼 하나 추가하면서 Tailwind 클래스 재사용을 깜빡하는 식의 괴리가 있음

  • 모델 크기를 묻는 질문이 있었음

    • Qwen2.5는 18조 토큰으로 학습됐지만, Qwen3는 36조 토큰으로 거의 두 배 규모임. 119개 언어와 방언을 포함함
      공식 블로그