# QwQ-32B: 강화 학습으로 더 작은 파라미터에서 DeepSeek-R1과 유사한 성능 내기

> Clean Markdown view of GeekNews topic #19600. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19600](https://news.hada.io/topic?id=19600)
- GeekNews Markdown: [https://news.hada.io/topic/19600.md](https://news.hada.io/topic/19600.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-06T19:33:07+09:00
- Updated: 2025-03-06T19:33:07+09:00
- Original source: [qwenlm.github.io](https://qwenlm.github.io/blog/qwq-32b/)
- Points: 3
- Comments: 1

## Topic Body

- QwQ-32B 모델은 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임  
- 이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용  
- Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함  
  
### 성능  
  
- QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.  
- DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함  
  - **QwQ-32B**는 LiveBench, BFCL에서 최고 성능을 기록하며, IFEval, AIME24에서도 **DeepSeek-R1-671B와 비슷한 수준**임  
  - LiveCodeBench에서는 DeepSeek-R1-671B보다 약간 낮지만, 여전히 다른 모델보다 우수함  
  - 전반적으로, **DeepSeek-R1-671B와 비슷하거나 더 나은 성능**을 보이면서도 **훨씬 적은 파라미터(325억 vs 6710억)**로 경쟁력을 입증  
  - 즉, **QwQ-32B는 강화 학습을 통해 최적화된 모델**로서, **훨씬 작은 규모임에도 불구하고 최상위 성능**을 달성한 것이 핵심 포인트  
  
### 강화 학습  
  
- 초기 단계에서 수학과 코딩 작업을 위한 **강화 학습(RL) 스케일링 접근 방식을 도입**함  
- 전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장  
- 일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴  
  
### 향후 작업  
  
- Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음  
- 강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임  
- 에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임

## Comments


### Comment 35525

- Author: neo
- Created: 2025-03-06T19:33:07+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43270843) 
- 긴 문맥 길이(130k 토큰)를 주의해야 함. 충분한 문맥 없이 긴 CoT를 생성하는 것은 무의미함
  - 첫 번째 프롬프트가 너무 길어서 작업을 잊어버림
  - 사용자가 특정 작업을 제공하지 않았음
  - 초기 지침은 AI 에이전트로 행동하라는 것임
  - 사용자가 문제를 주고 단계별로 추론하라는 것 같음

- 수학 학습과 코딩이 일반적인 추론 능력을 향상시킴
- Deep Seek보다 20배 작음. 어떤 하드웨어에서 실행 가능한지 궁금함
  - 512GB M3 Ultra가 필요 없을 것 같음
  - Deepseek과 맞먹지만 20배 작음

- 중국의 전략은 오픈 소스 소프트웨어와 로봇 공학에서 수익을 창출하는 것임
  - 미국은 어떻게 힘을 유지할 것인지 궁금함
  - 인도는 이 경쟁에 참여하지 못하고 있음

- Qwen2.5-plus를 테스트하기 위해 링크를 제공함
- 2024년 11월에 "프리뷰"로 출시되었음
  - "기다려"라는 표현을 많이 사용함
  - 많은 추론 토큰을 생성한 후 플롯을 잃어버리는 문제 발생

- Deepseek-R1 바로 아래에 위치함
  - 32B로 매우 인상적임
  - 생각하는 토큰이 최종 답변보다 10배 크기도 함
  - 주말에 함수 호출로 테스트할 예정임

- 개인 경험에서 역방향으로 읽고 질문에 답변하는 테스트를 함
  - "ip fo eulav si tahw"를 역방향으로 읽으면 "what is value of pi"가 됨
  - π의 값은 약 3.14159임
  - π는 무리수로, 끝없이 반복되지 않음

- 즉시 처리했으며 긍정적인 경험이었음