▲GN⁺ 12달전 | parent | ★ favorite | on: Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델(qwenlm.github.io)Hacker News 의견 물리 기반 문제를 LLMs에 제시했는데, 인간에게도 까다로운 문제임. GPT o3, Claude 3.7, Gemini 2.5 Pro 모두 처음에는 정답을 맞히지 못했음. Qwen3는 더욱 틀렸음. 문서화가 잘 되어 있으며, 주요 추론 스택에 대한 지원이 첫날부터 제공됨. 다양한 크기 선택이 가능함. 커뮤니티 퀀트 메이커들과 이미 작업한 경험이 있음. 성능을 테스트하기 전이지만, 주변 세부 사항에 대한 주의만으로도 훌륭한 릴리스임. Meta의 Llama 4와 비교하여 표준이 되어야 함. 벤치마크 결과가 매우 뛰어나서 믿기 어려울 정도임. 30B 모델이 Gemini 2.5 Pro와 경쟁하며 Gemma 27B보다 훨씬 나음. 다양한 오픈 웨이트 모델이 등장하고 있는데, 표준 데스크탑 GPU에서 합리적인 속도로 작동할 모델을 찾는 방법이 있는지 궁금함. Quadro RTX 4000을 사용 중이며, 다양한 크기의 모델 중 어떤 것이 빠를지 모르겠음. Qwen과 DeepSeek 모델이 CCP의 세계관에 맞춰 훈련되었을 가능성이 있지만, 실제로는 문제를 일으키지 않았음. 관련 연구가 많지 않음. Qwen-30B-A3B에 가장 기대가 큼. 오프라인/로컬 전용 코딩 어시스턴트로 적합해 보임. 지금까지 오픈 웨이트 모델은 성능이 떨어지거나 너무 느렸음. 추론 모델을 비교하는 최선의 방법에 대한 통찰을 찾고 있음. 창의적인 답변을 위해 높은 온도를, 논리적이고 결정적인 출력을 위해 낮은 온도를 사용하는 것이 추천됨. 그러나 추론 모델에 적용 가능한지 확신이 없음. 0.6B LLM이 32k 컨텍스트 윈도우를 가지고 있어 흥미로움. 미세 조정을 위한 재미있는 기본 모델이 될 수 있음. Hugging Face에서 가장 많이 다운로드되고 좋아요를 받음. 이 모델들은 많은 생각을 하는 것처럼 보임. 벤치마크는 32k 토큰의 생각 예산으로 실행됨. A3B가 특히 QWQ를 능가하며 CPU 추론에 유용할 수 있음. 성능 수치가 매우 인상적임. MoE가 3B 활성 파라미터로 o1을 능가함. 로컬 모델이 대부분의 작업을 처리할 수 있을 정도로 충분히 좋아지고 있음.
Hacker News 의견
물리 기반 문제를 LLMs에 제시했는데, 인간에게도 까다로운 문제임. GPT o3, Claude 3.7, Gemini 2.5 Pro 모두 처음에는 정답을 맞히지 못했음. Qwen3는 더욱 틀렸음.
문서화가 잘 되어 있으며, 주요 추론 스택에 대한 지원이 첫날부터 제공됨. 다양한 크기 선택이 가능함. 커뮤니티 퀀트 메이커들과 이미 작업한 경험이 있음.
성능을 테스트하기 전이지만, 주변 세부 사항에 대한 주의만으로도 훌륭한 릴리스임. Meta의 Llama 4와 비교하여 표준이 되어야 함.
벤치마크 결과가 매우 뛰어나서 믿기 어려울 정도임. 30B 모델이 Gemini 2.5 Pro와 경쟁하며 Gemma 27B보다 훨씬 나음.
다양한 오픈 웨이트 모델이 등장하고 있는데, 표준 데스크탑 GPU에서 합리적인 속도로 작동할 모델을 찾는 방법이 있는지 궁금함. Quadro RTX 4000을 사용 중이며, 다양한 크기의 모델 중 어떤 것이 빠를지 모르겠음.
Qwen과 DeepSeek 모델이 CCP의 세계관에 맞춰 훈련되었을 가능성이 있지만, 실제로는 문제를 일으키지 않았음. 관련 연구가 많지 않음.
Qwen-30B-A3B에 가장 기대가 큼. 오프라인/로컬 전용 코딩 어시스턴트로 적합해 보임. 지금까지 오픈 웨이트 모델은 성능이 떨어지거나 너무 느렸음.
추론 모델을 비교하는 최선의 방법에 대한 통찰을 찾고 있음. 창의적인 답변을 위해 높은 온도를, 논리적이고 결정적인 출력을 위해 낮은 온도를 사용하는 것이 추천됨. 그러나 추론 모델에 적용 가능한지 확신이 없음.
0.6B LLM이 32k 컨텍스트 윈도우를 가지고 있어 흥미로움. 미세 조정을 위한 재미있는 기본 모델이 될 수 있음. Hugging Face에서 가장 많이 다운로드되고 좋아요를 받음.
이 모델들은 많은 생각을 하는 것처럼 보임. 벤치마크는 32k 토큰의 생각 예산으로 실행됨. A3B가 특히 QWQ를 능가하며 CPU 추론에 유용할 수 있음.
성능 수치가 매우 인상적임. MoE가 3B 활성 파라미터로 o1을 능가함. 로컬 모델이 대부분의 작업을 처리할 수 있을 정도로 충분히 좋아지고 있음.