3P by GN⁺ 1달전 | ★ favorite | 댓글 1개
  • QwQ-32B 모델은 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임
  • 이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용
  • Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함

성능

  • QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.
  • DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함
    • QwQ-32B는 LiveBench, BFCL에서 최고 성능을 기록하며, IFEval, AIME24에서도 DeepSeek-R1-671B와 비슷한 수준
    • LiveCodeBench에서는 DeepSeek-R1-671B보다 약간 낮지만, 여전히 다른 모델보다 우수함
    • 전반적으로, DeepSeek-R1-671B와 비슷하거나 더 나은 성능을 보이면서도 **훨씬 적은 파라미터(325억 vs 6710억)**로 경쟁력을 입증
    • 즉, QwQ-32B는 강화 학습을 통해 최적화된 모델로서, 훨씬 작은 규모임에도 불구하고 최상위 성능을 달성한 것이 핵심 포인트

강화 학습

  • 초기 단계에서 수학과 코딩 작업을 위한 강화 학습(RL) 스케일링 접근 방식을 도입
  • 전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장
  • 일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴

향후 작업

  • Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음
  • 강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임
  • 에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임
Hacker News 의견
  • 긴 문맥 길이(130k 토큰)를 주의해야 함. 충분한 문맥 없이 긴 CoT를 생성하는 것은 무의미함

    • 첫 번째 프롬프트가 너무 길어서 작업을 잊어버림
    • 사용자가 특정 작업을 제공하지 않았음
    • 초기 지침은 AI 에이전트로 행동하라는 것임
    • 사용자가 문제를 주고 단계별로 추론하라는 것 같음
  • 수학 학습과 코딩이 일반적인 추론 능력을 향상시킴

  • Deep Seek보다 20배 작음. 어떤 하드웨어에서 실행 가능한지 궁금함

    • 512GB M3 Ultra가 필요 없을 것 같음
    • Deepseek과 맞먹지만 20배 작음
  • 중국의 전략은 오픈 소스 소프트웨어와 로봇 공학에서 수익을 창출하는 것임

    • 미국은 어떻게 힘을 유지할 것인지 궁금함
    • 인도는 이 경쟁에 참여하지 못하고 있음
  • Qwen2.5-plus를 테스트하기 위해 링크를 제공함

  • 2024년 11월에 "프리뷰"로 출시되었음

    • "기다려"라는 표현을 많이 사용함
    • 많은 추론 토큰을 생성한 후 플롯을 잃어버리는 문제 발생
  • Deepseek-R1 바로 아래에 위치함

    • 32B로 매우 인상적임
    • 생각하는 토큰이 최종 답변보다 10배 크기도 함
    • 주말에 함수 호출로 테스트할 예정임
  • 개인 경험에서 역방향으로 읽고 질문에 답변하는 테스트를 함

    • "ip fo eulav si tahw"를 역방향으로 읽으면 "what is value of pi"가 됨
    • π의 값은 약 3.14159임
    • π는 무리수로, 끝없이 반복되지 않음
  • 즉시 처리했으며 긍정적인 경험이었음