오픈 가중치 모델들이 수학이나 추론 같은 특화 영역에서 빠르게 따라잡는 게 인상적임
복잡한 논리나 코딩 관련 테스트도 해본 사람이 있는지 궁금함. 수학 성능이 좋은 모델은 종종 디버깅이나 알고리즘 생성에서도 강함
특정 도메인에 특화된 모델은 상업적 가치가 낮고, 대규모 LLM 학습은 범용성을 선호하기 때문에 자연스러운 현상임
kimi-k2는 코딩에서는 꽤 괜찮지만, Anthropic이나 OpenAI, Google의 SOTA 모델 수준에는 미치지 못함
이 모델의 성과에 대해 회의적 시각도 필요하다고 봄
인터넷에서 수집한 문제를 그대로 학습했다고 명시했는데, 벤치마크 오염 제거나 2024/2025년 문제 제외 여부를 언급하지 않았음
OpenAI나 Google은 2025년 문제를 사전에 접근하지 못한 상태에서 실험 모델을 테스트했음
OpenAI의 금메달 모델이 왜 아직 공개되지 않았는지 궁금함
그건 단순히 광고용이었음. 거기서 얻은 교훈을 다음 범용 모델에 반영할 예정임
이번 모델은 범용 모델이 아님이 중요함. Google과 OpenAI의 모델은 범용 모델을 사용했음
실제로 OpenAI와 Google 모두 IMO용으로 특화된 연구 모델을 사용했음
OpenAI는 이 트윗에서 GPT-5 출시를 예고하며, IMO 모델은 실험용이라 당분간 공개 계획이 없다고 밝힘
DeepMind는 공식 블로그에서 강화학습 기반의 다단계 추론과 정리 증명 데이터로 Gemini를 훈련했다고 설명함
Hacker News 의견
이번에 공개된 모델은 Apache 2.0 라이선스로 가중치를 오픈소스로 공개했음
OpenAI나 DeepMind의 IMO 금메달 모델들은 여전히 비공개 상태임
이전 토론은 이 링크에 있음
오픈 가중치 모델들이 수학이나 추론 같은 특화 영역에서 빠르게 따라잡는 게 인상적임
복잡한 논리나 코딩 관련 테스트도 해본 사람이 있는지 궁금함. 수학 성능이 좋은 모델은 종종 디버깅이나 알고리즘 생성에서도 강함
이 모델의 성과에 대해 회의적 시각도 필요하다고 봄
인터넷에서 수집한 문제를 그대로 학습했다고 명시했는데, 벤치마크 오염 제거나 2024/2025년 문제 제외 여부를 언급하지 않았음
OpenAI나 Google은 2025년 문제를 사전에 접근하지 못한 상태에서 실험 모델을 테스트했음
OpenAI의 금메달 모델이 왜 아직 공개되지 않았는지 궁금함
이번 모델은 범용 모델이 아님이 중요함. Google과 OpenAI의 모델은 범용 모델을 사용했음
이런 모델을 집에서 돌리려면 어떻게 해야 하는지 궁금함
CPU 기반으로 RAM 1TB 정도면 가능한가 하는 의문임
혹시 이 모델이 OpenAI나 Google의 출력물을 직접 증류(distill) 한 게 아닌지 의심됨
이 모델이 OpenRouter에 올라올 계획이 있는지 궁금함
OpenAI가 ChatGPT에 광고를 넣으면 사람들이 바로 다른 모델로 옮기지 않을까 하는 의문임