QwQ-32B: 강화 학습으로 더 작은 파라미터에서 D

▲

GN⁺ 2025-03-06 | parent | ★ favorite | on: QwQ-32B: 강화 학습으로 더 작은 파라미터에서 DeepSeek-R1과 유사한 성능 내기 (qwenlm.github.io)

Hacker News 의견

긴 문맥 길이(130k 토큰)를 주의해야 함. 충분한 문맥 없이 긴 CoT를 생성하는 것은 무의미함
- 첫 번째 프롬프트가 너무 길어서 작업을 잊어버림
- 사용자가 특정 작업을 제공하지 않았음
- 초기 지침은 AI 에이전트로 행동하라는 것임
- 사용자가 문제를 주고 단계별로 추론하라는 것 같음
수학 학습과 코딩이 일반적인 추론 능력을 향상시킴
Deep Seek보다 20배 작음. 어떤 하드웨어에서 실행 가능한지 궁금함
- 512GB M3 Ultra가 필요 없을 것 같음
- Deepseek과 맞먹지만 20배 작음
중국의 전략은 오픈 소스 소프트웨어와 로봇 공학에서 수익을 창출하는 것임
- 미국은 어떻게 힘을 유지할 것인지 궁금함
- 인도는 이 경쟁에 참여하지 못하고 있음
Qwen2.5-plus를 테스트하기 위해 링크를 제공함
2024년 11월에 "프리뷰"로 출시되었음
- "기다려"라는 표현을 많이 사용함
- 많은 추론 토큰을 생성한 후 플롯을 잃어버리는 문제 발생
Deepseek-R1 바로 아래에 위치함
- 32B로 매우 인상적임
- 생각하는 토큰이 최종 답변보다 10배 크기도 함
- 주말에 함수 호출로 테스트할 예정임
개인 경험에서 역방향으로 읽고 질문에 답변하는 테스트를 함
- "ip fo eulav si tahw"를 역방향으로 읽으면 "what is value of pi"가 됨
- π의 값은 약 3.14159임
- π는 무리수로, 끝없이 반복되지 않음
즉시 처리했으며 긍정적인 경험이었음