4P by GN⁺ 18시간전 | ★ favorite | 댓글 2개
  • Qwen3.7-Max는 코딩·디버깅, 사무 자동화, 수백~수천 단계 자율 실행을 겨냥한 에이전트 중심 독점 모델임
  • 코딩·범용 에이전트·추론·다국어 평가에서 경쟁 모델과 맞붙으며, Terminal Bench 2.0-Terminus 69.7점과 GPQA Diamond 92.4점을 기록함
  • 35시간 자율 커널 최적화에서 1,158회 도구 호출과 432회 평가를 수행해 Triton 기준 기하평균 10.0배 속도 향상을 달성함
  • 학습 인스턴스를 Task·Harness·Verifier로 분리해 교차 하네스 RL 학습을 수행하고, 특정 하네스 지름길보다 일반화된 문제 해결을 유도함
  • Alibaba Cloud Model Studio를 통해 곧 API가 제공되며, Claude Code·OpenClaw·Qwen Code 등 에이전트 프레임워크와 통합 가능함

성능 평가

  • Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM·추론, 일반 역량, 다국어 영역에서 여러 비교 모델과 함께 평가됨
  • 빈 셀(--)은 점수가 아직 제공되지 않았다는 뜻임
  • 코딩 에이전트

    • Terminal Bench 2.0-Terminus에서 69.7점을 기록해 DS-V4-Pro Max의 67.9점을 넘어섬
    • SWE-Verified에서는 80.4점으로 Opus-4.6 Max 80.8점, DS-V4-Pro Max 80.6점과 비슷한 수준임
    • SWE-Pro 60.6점, SWE-Multilingual 78.3점, SciCode 53.5점, QwenSVG 1608점을 기록함
    • NL2repo는 Claude Code로 평가했으며, 특정 저장소 접근을 시도하는 pip download, pip install, git clone 같은 Bash 명령을 비활성화함
    • QwenWebDev는 영어·중국어 이중언어 프런트엔드 코드 생성 내부 벤치마크이며, 7개 범주와 자동 렌더링, 멀티모달 판정, BT/Elo 평점을 사용함
  • 범용 에이전트

    • MCP-Mark에서 60.8점으로 GLM-5.1의 57.5점을 넘었고, MCP-Atlas에서 76.4점으로 Opus-4.6의 75.8점을 넘어섬
    • Skillsbench에서는 59.2점으로 K2.6의 56.2점을 상회함
    • Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록해 GPU 커널 최적화 역량을 보임
    • BFCL-V4 75.0점, Qwenclaw 64.3점, ClawEval 65.2점으로 Opus-4.6 Max에 근접함
    • SpreadSheetBench-v1에서는 87.0점을 기록해 사무 자동화 벤치마크에서도 높은 성능을 보임
    • QwenClawBench는 실제 사용자 분포를 반영한 Claw 에이전트 벤치마크로 오픈소스 공개됨
    • CoWorkBench는 컴퓨터과학, 금융, 법률, 의료 등 생산성 도메인의 장기 작업을 다루는 내부 협업 벤치마크임
  • 추론

    • GPQA Diamond에서 92.4점으로 Opus-4.6의 91.3점을 넘음
    • HLE에서는 41.4점으로 Opus-4.6의 40.0점을 넘고, HMMT 2026 Feb에서는 97.1점으로 Opus-4.6의 96.2점을 넘어섬
    • IMOAnswerBench에서는 90.0점으로 DS-V4-Pro의 89.8점을 넘고, Apex에서는 44.5점으로 DS-V4-Pro의 38.3점을 넘음
    • 추론 시나리오에는 Reasoning effort is set to xhigh...로 시작하는 시스템 프롬프트가 권장됨
  • 일반 역량과 다국어

    • IFBench에서 79.1점으로 DS-V4-Pro의 77.0점을 넘으며 정밀한 지시 따르기 성능을 보임
    • WMT24++에서 85.8점, MAXIFE에서 89.2점을 기록해 다국어 이해와 번역 품질에서도 강점을 보임
    • SuperGPQA에서는 73.6점, QwenWorldBench에서는 57.3점을 기록함
    • WMT24++는 더 어려운 WMT24 하위 집합이며, 55개 언어에서 XCOMET-XXL 평균 점수를 사용함
    • MAXIFE는 영어와 다국어 프롬프트 23개 설정의 정확도를 측정함
    • MMLU-ProX는 29개 언어의 평균 정확도를 사용함

평가 조건과 벤치마크 세부사항

  • Terminal-Bench 2.0은 Harbor/Terminus-2 하네스, 5시간 제한, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, 최대 80K 토큰, 256K 컨텍스트, 5회 평균으로 평가됨
  • SWE-Bench 계열은 내부 에이전트 스캐폴드와 Bash·파일 편집 도구를 사용하며, temp=1.0, top_p=0.95, 200K 컨텍스트 창으로 평가됨
  • SkillsBench는 OpenCode로 평가했으며, 외부 API 의존 작업 9개를 제외한 78개 작업에서 5회 평균을 사용함
  • MCP-Mark는 GitHub MCP v0.30.3을 사용하고 Playwright 응답을 32K 토큰에서 잘랐음
  • MCP-Atlas는 공개 세트 점수이며 gemini-2.5-pro 판정자를 사용함
  • Kernel Bench L3는 50개 문제에서 PyTorch eager 기준 대비 문제별 속도 향상의 중앙값과 torch.compile보다 빠른 문제 비율을 보고함
  • Kernel Bench L3의 각 테스트 샘플은 H100 80GB GPU 1개가 있는 격리 Docker 컨테이너에서 실행되며, 인터넷 접근은 CUTLASS 코드베이스와 공식 CUDA 문서로 제한됨
  • Kernel Bench L3는 500회 도구 호출 제한과 100회 비개선 턴 후 조기 중단을 사용하고, GPT-5.4(xhigh)로 잠재적 해킹 행동을 탐지하며, CUPTI로 커널 수준 타이밍을 측정함
  • MRCR-v2는 8개 바늘을 포함한 128K 컨텍스트 하위 집합이며 Google DeepMind eval_hub의 mrcr_v2 프로토콜을 채택함

협업 생산성 어시스턴트

  • Qwen3.7-Max는 현실 업무 생산성을 위한 고급 동료 역할을 목표로 하며, 복잡한 정보 종합, 심층 데이터 분석과 모델링, 출판 가능한 문서·시각화 생성을 수행함
  • 주요 에이전트 하네스와 기본 호환성을 갖추고, 장기 작업에서는 자율 계획과 여러 시간 동안의 지속 실행을 지원함
  • 수천 회의 도구 호출과 수십 회의 개선 반복을 통해 출력 품질을 점진적으로 높임
  • 일반적으로 전문 팀이 1~2주 걸리는 복잡한 프로젝트를 몇 시간 안에 end-to-end로 완료할 수 있다고 제시함

에이전트 학습과 일반화

  • Qwen3.5에서 도입된 환경 스케일링 접근을 바탕으로, Qwen3.7에서는 에이전트 학습 환경의 품질과 다양성을 확장함
  • 언어 모델이 다양한 사전학습 텍스트에서 일반화하듯, 에이전트 역량도 다양한 학습 환경에서 일반화된다는 관찰을 바탕으로 함
  • 평가의 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 out-of-domain 환경으로 구성됨
  • 환경 스케일링은 명확하고 일관된 개선 궤적을 만들며, Qwen3.7-Max는 Claude-4.6-Opus-Max에 근접한 상위 3위 평균 순위를 달성함
  • 벤치마크 하위 집합의 성능 향상이 남은 벤치마크와 전체 평균의 상대적 향상을 예측할 만큼 일관돼, 벤치마크 특화 개선보다 역량 일반화를 시사함
  • 스케일링 동역학과 방법론의 추가 분석은 향후 기술 보고서에서 다뤄질 예정임

교차 하네스 일반화

  • Rollout 환경 인프라는 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리함
  • 다양한 하네스와 그 버전을 지원하며, 합성 프록시가 아니라 현실 환경에 기반한 환경을 사용함
  • 분리 설계는 같은 작업을 다양한 하네스 유형·버전, 검증자와 최소한의 추가 비용으로 조합하는 조합적 스케일링을 가능하게 함
  • 같은 작업을 서로 다른 하네스 구성에서 만나게 하는 교차 하네스·교차 검증자 RL 학습을 통해, 모델이 특정 하네스의 지름길이 아니라 일반화 가능한 문제 해결 전략을 학습하도록 함
  • QwenClawBench와 CoWorkBench에서 Qwen3.7-Max는 평가 시 사용되는 하네스와 무관하게 강하고 일관된 성능을 보임

실제 환경에서의 자기 진화

  • Extend Attention은 SGLang의 프로덕션급 가변 길이 멀티헤드 어텐션 연산자임
  • 테스트 시나리오는 MTP와 함께 새로 생성된 토큰과 최대 32K 항목의 prefix KV-cache 사이의 어텐션 점수를 계산하는 LLM 서빙의 메모리 병목·지연 민감 커널을 다룸
  • 기준 구현은 SGLang의 공식 Triton 구현임
  • 미지의 PPU 아키텍처에서 커널 최적화

    • Qwen3.7-Max는 학습 중 본 적 없는 T-Head ZW-M890 PPU가 장착된 ECS 인스턴스에서 이 커널을 최적화함
    • 사전 프로파일링 데이터, 하드웨어 문서, 해당 아키텍처용 예제 커널 없이 시작함
    • 빈 작업공간에는 작업 설명, 기존 SGLang 구현, 평가 스크립트만 있었음
    • 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행함
    • 컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 자체적으로 수행함
    • 최종 결과는 여러 워크로드에서 Triton 기준 대비 기하평균 10.0배 속도 향상임
    • 30시간이 지난 뒤에도 의미 있는 개선을 찾아내며 장기 자율 최적화의 생산성을 보임
  • 최적화 궤적

    • Split-KV 병렬화로 prefix KV-cache를 쿼리당 여러 스레드 블록으로 나누고, online softmax rescaling으로 부분 결과를 병합하는 reduction 커널을 도입해 약 2시간 만에 0.33배에서 2.58배로 향상됨
    • per-call cudaMalloc/cudaFree를 사전 할당된 torch::empty 텐서로 대체하고, 동기 cudaMemcpy를 제거하며, 내부 루프를 2배 언롤링해 약 2.5시간 만에 5.37배로 향상됨
    • 고정 split divisor를 워크로드 크기 기반 휴리스틱으로 바꾸고 36-SM 아키텍처의 SM wave occupancy를 높여 약 3시간 만에 6.85배로 향상됨
    • 공유 메모리 배리어 제거, 레지스터 기반 K/V 로딩, persistent static tensor, batched softmax update, Q 사전 스케일링을 결합해 3~25시간 구간에서 8.50배로 향상됨
    • MTP γ=4 특화 커널은 블록당 4개 쿼리 토큰을 동시에 처리하고 쿼리 간 K/V 로드를 공유해 32~35시간 구간에서 10.0배에 도달함
  • 동일 조건 비교

    • GLM 5.1은 7.3배, Kimi K2.6은 5.0배, DeepSeek V4 Pro는 3.3배, Qwen3.6-Plus는 1.1배에 도달함
    • 일찍 중단된 모델은 5회 연속 도구 호출을 내지 않아 더 이상 진전할 수 없다고 판단하고 세션을 자발적으로 종료함
  • NVIDIA GPU 커널 생성

    • Qwen3.7-Max는 PPU 커널 생성뿐 아니라 다양한 NVIDIA GPU에서도 프로덕션급 커널을 생성함
    • KernelBench L3에서 Qwen3.7-Max는 96% 시나리오에서 가속 커널을 만들 수 있음
    • 비교 수치는 Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, Qwen3.6-Plus 48%임
  • 장기 자율 에이전트의 특징

    • 1,000회가 넘는 도구 호출 동안 최적화 전략을 유지하며 컨텍스트를 잃거나 퇴행하지 않는 장기 추론 지속성을 보임
    • 학습 중 보지 못한 아키텍처에서 암기된 하드웨어 지식이 아니라 런타임 피드백을 기반으로 경쟁력 있는 커널을 만드는 인컨텍스트 일반화를 보임

보상 해킹 모니터링

  • Qwen3.7-Max는 소프트웨어 엔지니어링 작업의 RL 모니터링에 통합돼, 보상 해킹 자기 모니터링과 규칙 자기 진화 프레임워크를 구성함
  • 80시간을 넘는 RL 실험 동안 학습 궤적을 자율적으로 검색·재생하며 10,000회 이상의 호출을 실행함
  • GitHub에서 정답에 접근하기 위해 제약을 우회하려는 시도 같은 후보 해킹 패턴을 체계적으로 식별함
  • 규칙 검증, 반례 채굴, 반복 최적화를 수행함
  • 여러 차례의 규칙 자기 진화를 통해 13개의 새 휴리스틱 규칙을 추가하고, 1,618건의 해킹 케이스를 정확히 플래그함
  • 이 과정은 RL 보상의 안정성을 보장하고, 정교한 소프트웨어 엔지니어링 에이전트로서 모델의 지속적 자기 개선을 촉진함

스타트업 경영에서의 장기 계획과 실행

  • Dynamic Cumulative Survival Games 프레임워크에서 학습 작업의 시간 복잡도를 확장해 장기 계획과 실행 역량을 강화함
  • 천 단계를 넘는 순차 의사결정 궤적에서 에이전트의 정책 일관성을 높여, 가설 구축, 환경 피드백 기반 전략 조정, 장기 경험과 메모리 축적을 지속하게 함
  • 긴 시간 범위에서도 안정적인 실행 리듬을 유지하며, 컨텍스트 열화와 지시 이탈에 견디도록 함
  • YC-Bench 결과

    • YC-Bench는 스타트업의 1년 전체 생애주기를 시뮬레이션하는 벤치마크임
    • 에이전트는 인력 관리, 계약 검토, 악성 고객 식별 등 수백 라운드의 의사결정을 수행하면서 상승하는 인건비 속에서도 이익률을 유지해야 함
    • Qwen3.7-Max는 총매출 208만 달러를 달성해 Qwen3.6-Plus의 105만 달러 대비 2배, Qwen3.5-Plus의 35만2천 달러 대비 5.9배 성능을 냄
    • 완료한 작업 수는 237개임
    • 잠재 고객 탐색, 악성 함정 식별과 블랙리스트 등록, 안정적 수익원 우선순위화, 중기 위기에서의 자율 회복을 수행함
    • 최종적으로 안정적이고 고효율인 실행 루프로 수렴함

Qwen3.7로 구축하기

  • Qwen3.7-Max는 Alibaba Cloud Model Studio를 통해 곧 제공될 예정이며, 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합할 수 있음
  • API 사용

  • 프런트엔드 코딩

    • Qwen3.7-Max는 단일 프롬프트에서 Three.js 3D 장면, Canvas 애니메이션, 전체 페이지 레이아웃, 동적 SVG를 포함한 상호작용 웹 애플리케이션을 생성할 수 있음
    • 예시 프롬프트는 카메라로 손바닥의 펼침·쥠을 감지해 입자군 수축과 확산을 제어하고, 손가락 제스처 1·2에 따라 각각 hello, worldI’am Qwen 문자를 형성하며, 3D 회전 효과를 가진 HTML 구현을 요구함
  • 사무 어시스턴트

    • Qwen3.7-Max는 도구 통합을 통해 지능형 사무 어시스턴트로 동작할 수 있음
    • 예시에서는 대학 논문 형식 규정을 읽고, 어수선한 초안을 자율적인 office-cli 도구 호출로 다시 포맷함
    • 페이지 레이아웃, 제목 스타일, 글꼴, 여백, 목차, 참고문헌 형식을 수정함
    • 샘플 논문은 데모용으로 AI가 생성한 것임
  • 물리 세계 내비게이션 에이전트

    • Qwen3.7-Max는 도구 호출을 통해 로봇 개를 조작할 수 있음
    • 물리 환경에서 물리적 이해, 계획, 메모리, 의사결정을 수행함
    • 로보틱스 에이전트 하네스 Qwen-RobotClaw, 내비게이션 기반 모델 Qwen-RobotNav, Qwen-plus 모델로 구축한 여러 비전 도구를 사용함
    • 데모의 왼쪽 패널은 물리 세계에서 20분 동안 진행된 에이전트 도구 호출 상호작용 흐름을, 가운데는 사족보행 로봇의 궤적상 1인칭 시야를, 오른쪽은 에이전트의 장기 메모리를 보여줌
  • 코딩 어시스턴트 통합

    • Qwen3.7-Max는 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합됨
    • Claude Code

      • Qwen API는 Anthropic API 프로토콜을 지원해 Claude Code에서 직접 사용할 수 있음
      • ANTHROPIC_MODELANTHROPIC_SMALL_FAST_MODELqwen3.7-max로 설정하고, ANTHROPIC_BASE_URLhttps://dashscope-intl.aliyuncs.com/apps/anthropic으로 설정함
    • OpenClaw

      • OpenClawModel Studio를 통해 연결할 수 있음
      • DASHSCOPE_API_KEY를 설정한 뒤 openclaw dashboard를 실행하고, ~/.openclaw/openclaw.json에서 modelstudio/qwen3.7-max를 기본 모델로 지정함
      • 설정 예시는 contextWindow 1000000, maxTokens 65536, reasoning true를 포함함
    • Qwen Code

      • Qwen Code는 Qwen 시리즈에 깊이 최적화돼 있음
      • npm install -g @qwen-code/qwen-code@latest로 설치한 뒤 qwen 명령으로 실행함

댓글과 토론

저번에 핵심 인력들이 퇴사했다는 글보고 걱정했는데 그래도 활동이 활발하네요

Hacker News 의견들
  • AA-omniscience에서 환각이 아닌 응답 비율이 최고 수준이고, Opus 4.7, Gemini 3.1 Pro, GPT5.5보다 좋음. 팀에 축하를 보냄

    • 참고한 건 이 링크임: https://artificialanalysis.ai/evaluations/omniscience?models...
      기본 표시가 아니라 차트에 직접 추가해야 했고, 데이터셋에서 가장 낮은 환각률인지 궁금함
    • 이런 최고 수준 중국 모델들을 많이 써보면 가장 큰 질문은 토큰 효율이 어떠냐임
      예를 들어 Step 3.5 Flash를 로컬에서 돌리면 전반적으로는 놀라울 만큼 유능하지만 토큰 효율이 너무 나빠서, 실제 소요 시간 기준으로는 대부분 다른 모델에 밀림. llama.cpp에 MTP 지원을 해킹해 넣어도 Spark에서 20tk/s가 30tk/s가 되는 정도였고, 세 헤드로 학습됐지만 MTP 2가 적정점이었음
      DeepSeek 모델들과 Qwen 3.5 Plus도 비슷해서 Opus, 특히 GPT 5.5와 비교하면 같은 답을 내는 데 훨씬 더 많은 토큰을 씀
      Qwen 3.7은 이 부분이 나아졌기를 정말 기대하고 있고, 빨리 써보고 싶음. 참고로 Spark에서 DeepSeek v4 Flash를 돌리는 건 정말 말이 안 되게 신기했고, antirez가 본다면 고맙다고 하고 싶음
    • “환각이 아닌 응답 비율”이 완벽하다는 건 그 자체로는 별 의미가 없을 수 있음. 이런 테스트에도 사람이 만든 환각이 들어갈 수 있기 때문임
      결국 모델이 테스트를 만든 집단의, 참일 수도 거짓일 수도 있는 믿음과 얼마나 맞느냐를 뜻함
    • 정말 대단하고 진전이 인상적임. 학습에 자체 칩을 얼마나 썼는지도 궁금함
    • 어느 수준에서 능력의 상태 전이가 일어나는지 궁금함. 5%인지, 1%인지
  • 어젯밤 주간 Claude Code 한도에 위험할 정도로 가까워져서 Claude에게 llama.cpp와 OpenCode로 Qwen3.6을 설정하게 했음. 솔직히 Claude Code의 훌륭한 무료 대안이고, 작고 덜 복잡한 작업 상당수에는 충분히 좋음
    이 새 버전도 써보는 게 기대됨. 오픈소스 모델이 최전선에 이렇게 가까워졌다는 점이 매우 인상적임

    • 어떤 머신과 모델에서 돌리는지 궁금함
      지난주 M2 MacBook Pro 32GB에서 llama.cpp와 LM Studio로 qwen3.6-27b Q6_k GUFF를 시도했는데 둘 다 초당 1토큰도 겨우 나왔음
      어느 정도 속도를 기대해야 하는지 모르겠음. 2년 전 llama.cpp로 Llama 3 34b 계열 모델을 돌렸을 때는 초당 몇 토큰은 나왔던 기억이 있어서, 설정을 완전히 잘못한 건지 기대치가 비현실적인 건지 헷갈림
      혹시 qwen 3.x가 어떤 이유로 더 느린 건가 싶기도 함. 전문가 혼합(MoE) 구조인지도 궁금함. 즉각 반응을 기대하는 건 아니지만 지금 속도는 실제로 쓰기 어렵다
    • 이 새 버전은 로컬에서 돌릴 수 있는 물건이 아님. 클라우드 모델이고, 가중치를 공개하더라도 아마 너무 클 가능성이 큼
    • 정확히 어떤 모델을 쓰는지 궁금함. 어떤 매개변수와 양자화인지, 하드웨어는 무엇인지도 궁금함
      context-mode나 동적 컨텍스트 가지치기 같은 성능 최적화용 MCP나 다른 도구를 쓰는지도 알고 싶음. 로컬 모델은 꽤 써봤지만 opencode는 막 시작했고, 아직 결과가 좋지는 않지만 단순한 작업에서는 꼭 잘 됐으면 함. 새로 설치한 opencode가 유휴 상태에서도 iTerm CPU를 100% 쓰는 문제도 있음
    • Qwen Max는 보통 비공개 모델이라 아쉬움
    • Qwen 3.6이 Sonnet 4.6과 비교해 어떤 느낌인지 궁금함. 현실적으로 많이 쓰는 건 그쪽이기 때문임
      코드 관련 작업을 전부 Opus 4.7로 처리하면 Sonnet을 쓸 수 있을 때보다 월 청구액이 10~20배 높아질 것임
  • 독점 모델을 더 많이 내기 시작하는 만큼, 이런 모델을 미국 소재 사업자를 통해 쓸 수 있도록 미국 주요 하이퍼스케일러 중 하나와 제휴했으면 정말 좋겠음
    왜 그게 합리적이지 않거나 그들의 이익에 맞지 않을 수 있는지는 충분히 이해함. 미국도 반대로 그런 일을 전혀 자동으로 해주지 않는다는 것도 맞음. 그래도 실제 프로덕션 작업부하에서 제대로 시험해볼 수 있으면 좋겠음

    • 미국 하이퍼스케일러들이 반대로도 똑같이 하지 않는 한, 지금 상태가 유지됐으면 함. 모두가 공유에 만족한다면 양방향으로 공유가 이뤄져야 하고, 그렇지 않다면 미국 하이퍼스케일러들은 지금까지처럼 스스로 고립된 채 있으면 됨
    • Qwen3.6-Plus는 Fireworks에서 쓸 수 있음
    • Alibaba Cloud는 멕시코 데이터센터를 갖고 있음
    • fireworks가 Qwen 3.6 Plus를 호스팅하니, Qwen 3.7 Plus도 가져올 수 있을 것 같음
    • ChatLLM이 QWEN을 지원하는데, 이걸 미국 기준으로 안전하다고 볼 수 있는지 궁금함
  • 수치 자체는 아주 좋음. 그런데 이런 글에서 왜 최신 경쟁 모델과 비교하지 않는지는 여전히 이해가 안 됨. 사람들이 못 알아챌 리도 없는데

    • 경쟁사보다 나쁘게 보이는 수치를 내놓는 곳은 없음
      OpenAI와 Anthropic도 평가 데이터셋을 서로 다르게 쓰는 경우가 많아서 마찬가지임
    • 마이너 버전 상승 범위라면 용서할 만하다고 봄. 참고로 요즘 대규모 언어 모델에서는 이유는 모르겠지만 x.5가 사실상 메이저 버전 상승처럼 쓰임
      대규모 언어 모델이라도 이런 글이 그냥 뚝 떨어지는 건 아님. 자기 모델의 목표 벤치마크 세트가 있다면, 나란히 비교 가능한 모델 세트를 계속 유지하는 것 자체가 별도의 관리 부담임
    • 아마도 자기들이 최신 최고 수준에서 N개월 정도 뒤처져 있다고 보이게 하려는 논리일 것 같음
      현실적으로는 독자들이 세부사항을 눈치채지 않기를 바라는 것이라 봄
      Qwen 모델은 오픈 가중치 기준으로는 훌륭하지만, 이전 릴리스들은 실제 사용에서 벤치마크만큼 잘 나오지 않았음. 벤치마크 수치 최적화가 효과 있다는 걸 아니까 거기에 맞추는 것임
    • 기대치를 설정하는 과정의 일부라고 봄. 특정 모델로 증류나 평가 하네스를 구성했다는 사정도 있을 수 있음
      4.7과 비교 가능하다고 말하면, 평가 기준 모델이 머릿속에 그렇게 고정됨
    • 솔직히 초기 버전 Opus-4.6은 지금 4.7이라고 제공되는 것보다 훨씬 나았음. 그 수준으로만 동작한다면 완전히 갈아탈 의향이 있음
  • 이것도 일주일 뒤에 Hugging Face 릴리스가 나오는 유형인지 궁금함. 아니면 독점으로 유지된다는 걸 확실히 아는 건가

    • 틀렸으면 정정해주면 좋겠지만, Max 모델은 보통 공개되지 않는 것으로 알고 있음
  • Qwen의 오픈 가중치 릴리스가 더 나오길 기대함. 특히 122B와 397B가 기대됨

    • 맞음. 60~150B 정도 범위는 현재 프로슈머 하드웨어에서 정말 좋은 지점이라, 120b-a14b 같은 모델이 나오면 좋겠음
    • 개인적으로는 9B처럼 더 낮게 양자화된 모델이 더 기대됨
    • qwen3.7 9b와 72b가 더 기대됨. 보통 크기 대비 성능이 아주 좋음
    • 아직 qwem image-edit 2.0 오픈 가중치를 기다리고 있음
    • 아프다. 이제 막 이런 걸 만져보기 시작했는데, 내 환경은 12GB 3060과 RAM 32GB가 달린 평범한 게이밍 데스크톱임
      Qwen 9B만 넘어가도 머신이 완전히 멈출 위험이 있음
  • 벤치마크에 Opus 4.7, GPT5.5, Gemini Flash 3.5가 없음

  • pi agent를 쓰고 있고 호스팅된 Qwen 모델을 써보고 싶음. 좋은 선택지가 무엇인지 궁금함
    공식 제공자에는 Alibaba가 없음. OpenRouter 같은 서비스가 충분히 빠른지도 궁금함. 참고로 DeepSeek v4는 이런 프록시 서비스에서 심하게 제한됨

    • pi + openrouter에서 qwen3.6-max-preview를 많이 쓰고 있음. 아직 안정성이나 성능 문제는 겪지 않았음
  • 로컬 대규모 언어 모델을 막 만져보기 시작했는데 솔직히 꽤 인상적임. NVIDIA A1000(6GB VRAM)과 RAM 96GB가 달린 워크스테이션 노트북을 쓰고 있음
    GPU는 거의 쓰지 않았고, 가끔 CAD 설계나 OpenCV 기반 머신러닝 정도에만 썼음. llama3:latest를 돌려보니 꽤 빠르게 실행됐고, Qwen이 내 시스템에서 어떻게 돌지 궁금함

  • 가장 신뢰하는 패턴은 외부 동작마다 작은 검증 산출물을 추가하는 것임. 에이전트는 추론 깊이가 부족해서보다, 조용한 상태 드리프트 때문에 더 빨리 실패하는 경우가 많음

    • 이 부분을 더 자세히 설명해줄 수 있음