Hacker News 의견
  • 물리 기반 문제를 LLMs에 제시했는데, 인간에게도 까다로운 문제임. GPT o3, Claude 3.7, Gemini 2.5 Pro 모두 처음에는 정답을 맞히지 못했음. Qwen3는 더욱 틀렸음.

  • 문서화가 잘 되어 있으며, 주요 추론 스택에 대한 지원이 첫날부터 제공됨. 다양한 크기 선택이 가능함. 커뮤니티 퀀트 메이커들과 이미 작업한 경험이 있음.

  • 성능을 테스트하기 전이지만, 주변 세부 사항에 대한 주의만으로도 훌륭한 릴리스임. Meta의 Llama 4와 비교하여 표준이 되어야 함.

  • 벤치마크 결과가 매우 뛰어나서 믿기 어려울 정도임. 30B 모델이 Gemini 2.5 Pro와 경쟁하며 Gemma 27B보다 훨씬 나음.

  • 다양한 오픈 웨이트 모델이 등장하고 있는데, 표준 데스크탑 GPU에서 합리적인 속도로 작동할 모델을 찾는 방법이 있는지 궁금함. Quadro RTX 4000을 사용 중이며, 다양한 크기의 모델 중 어떤 것이 빠를지 모르겠음.

  • Qwen과 DeepSeek 모델이 CCP의 세계관에 맞춰 훈련되었을 가능성이 있지만, 실제로는 문제를 일으키지 않았음. 관련 연구가 많지 않음.

  • Qwen-30B-A3B에 가장 기대가 큼. 오프라인/로컬 전용 코딩 어시스턴트로 적합해 보임. 지금까지 오픈 웨이트 모델은 성능이 떨어지거나 너무 느렸음.

  • 추론 모델을 비교하는 최선의 방법에 대한 통찰을 찾고 있음. 창의적인 답변을 위해 높은 온도를, 논리적이고 결정적인 출력을 위해 낮은 온도를 사용하는 것이 추천됨. 그러나 추론 모델에 적용 가능한지 확신이 없음.

  • 0.6B LLM이 32k 컨텍스트 윈도우를 가지고 있어 흥미로움. 미세 조정을 위한 재미있는 기본 모델이 될 수 있음. Hugging Face에서 가장 많이 다운로드되고 좋아요를 받음.

  • 이 모델들은 많은 생각을 하는 것처럼 보임. 벤치마크는 32k 토큰의 생각 예산으로 실행됨. A3B가 특히 QWQ를 능가하며 CPU 추론에 유용할 수 있음.

  • 성능 수치가 매우 인상적임. MoE가 3B 활성 파라미터로 o1을 능가함. 로컬 모델이 대부분의 작업을 처리할 수 있을 정도로 충분히 좋아지고 있음.