QwQ-32B: 강화 학습으로 더 작은 파라미터에서 DeepSeek-R1과 유사한 성능 내기
(qwenlm.github.io)- QwQ-32B 모델은 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임
- 이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용
- Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함
성능
- QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.
- DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함
- QwQ-32B는 LiveBench, BFCL에서 최고 성능을 기록하며, IFEval, AIME24에서도 DeepSeek-R1-671B와 비슷한 수준임
- LiveCodeBench에서는 DeepSeek-R1-671B보다 약간 낮지만, 여전히 다른 모델보다 우수함
- 전반적으로, DeepSeek-R1-671B와 비슷하거나 더 나은 성능을 보이면서도 **훨씬 적은 파라미터(325억 vs 6710억)**로 경쟁력을 입증
- 즉, QwQ-32B는 강화 학습을 통해 최적화된 모델로서, 훨씬 작은 규모임에도 불구하고 최상위 성능을 달성한 것이 핵심 포인트
강화 학습
- 초기 단계에서 수학과 코딩 작업을 위한 강화 학습(RL) 스케일링 접근 방식을 도입함
- 전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장
- 일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴
향후 작업
- Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음
- 강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임
- 에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임
Hacker News 의견
-
긴 문맥 길이(130k 토큰)를 주의해야 함. 충분한 문맥 없이 긴 CoT를 생성하는 것은 무의미함
- 첫 번째 프롬프트가 너무 길어서 작업을 잊어버림
- 사용자가 특정 작업을 제공하지 않았음
- 초기 지침은 AI 에이전트로 행동하라는 것임
- 사용자가 문제를 주고 단계별로 추론하라는 것 같음
-
수학 학습과 코딩이 일반적인 추론 능력을 향상시킴
-
Deep Seek보다 20배 작음. 어떤 하드웨어에서 실행 가능한지 궁금함
- 512GB M3 Ultra가 필요 없을 것 같음
- Deepseek과 맞먹지만 20배 작음
-
중국의 전략은 오픈 소스 소프트웨어와 로봇 공학에서 수익을 창출하는 것임
- 미국은 어떻게 힘을 유지할 것인지 궁금함
- 인도는 이 경쟁에 참여하지 못하고 있음
-
Qwen2.5-plus를 테스트하기 위해 링크를 제공함
-
2024년 11월에 "프리뷰"로 출시되었음
- "기다려"라는 표현을 많이 사용함
- 많은 추론 토큰을 생성한 후 플롯을 잃어버리는 문제 발생
-
Deepseek-R1 바로 아래에 위치함
- 32B로 매우 인상적임
- 생각하는 토큰이 최종 답변보다 10배 크기도 함
- 주말에 함수 호출로 테스트할 예정임
-
개인 경험에서 역방향으로 읽고 질문에 답변하는 테스트를 함
- "ip fo eulav si tahw"를 역방향으로 읽으면 "what is value of pi"가 됨
- π의 값은 약 3.14159임
- π는 무리수로, 끝없이 반복되지 않음
-
즉시 처리했으며 긍정적인 경험이었음