Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는

iwanhae 12달전 | parent | ★ favorite | on: Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델(qwenlm.github.io)

큰 모델도 흥미롭지만, 작은모델쪽이 더 흥미롭습니다.
0.6B 모델이 어지간한 다른 모델들의 7B 정도 성능을 내는것처럼 보여요.