Putnam 문제 약간 변형 시 O1-preview 정

▲

GN⁺ 2025-01-02 | parent | ★ favorite | on: Putnam 문제 약간 변형 시 O1-preview 정확도 30% 하락(openreview.net)

Hacker News 의견

ChatGPT가 "10파운드 깃털과 10파운드 벽돌 중 어느 것이 더 무겁나?"라는 문제를 정확히 맞췄던 시절을 회상하는 의견이 있음. 그러나 문제를 약간 변형하면 성능이 떨어짐을 지적함
- 예를 들어, "9.99파운드 강철과 10.01파운드 솜 중 어느 것이 더 무겁나?"라는 질문에 잘못된 답변을 제공함
- 모델의 진정한 능력을 분석하려면 훈련 데이터에서 벗어나야 함
1905년 이전의 모든 디지털화된 데이터를 기반으로 모델을 훈련시키고 질량-에너지 등가 공식에 대해 묻는 실험을 보고 싶다는 의견이 있음
- 패턴 인식이 지능의 한 형태인지에 대한 논쟁을 해결할 수 있을 것이라는 기대
LLM의 실제 작업 성능이 아시아 스타일 시험을 위한 학생들의 벼락치기와 유사하다는 의견이 있음
- 의미를 이해하지 못한 채 완벽하게 되풀이하는 능력에 불과함
입력을 약간만 변형하면 모델이 예상했던 질문으로 돌아가 잘못된 답변을 제공할 수 있다는 의견이 있음
- 문제를 여러 각도에서 평가하고 결론을 내리도록 유도하면 더 나은 응답을 얻을 수 있음
LLM이 매우 어려운 수학 및 경쟁 프로그래밍 문제를 해결하는 데 여전히 뛰어나다는 의견이 있음
- 그러나 이전에 본 문제에 더 잘 대처함
모델이 현재 무작위 벤치마크에 대해 하드코딩되고 있다는 것이 공공연한 비밀인지에 대한 의문이 제기됨
문제의 재구성이 인간에게도 혼란을 줄 수 있다는 의견이 있음
- 최신 문제의 재구성 효과를 보고 싶다는 의견
패턴 매칭에 매우 효과적이지만 패턴을 변경하면 작동하지 않는다는 의견이 있음
- 전통적인 방식으로 훈련되었으며, 테스트 시간 계산이나 몬테카를로 트리 탐색이 없다는 점을 지적함
OpenAI가 특정 데이터셋에서 성능을 주장하지 않았다는 점을 지적하는 의견이 있음
- 데이터셋에 있는 질문에 대해 성능이 크게 향상된다는 결론을 내릴 수 있음
o1-preview에서 o1로의 성능 향상이 있었으며, 수정된 문제에 대해 올바른 답변을 제공했다는 의견이 있음
- SOTA가 빠르게 변화하고 있음