▲GN⁺ 2025-01-02 | parent | ★ favorite | on: Putnam 문제 약간 변형 시 O1-preview 정확도 30% 하락(openreview.net)Hacker News 의견 ChatGPT가 "10파운드 깃털과 10파운드 벽돌 중 어느 것이 더 무겁나?"라는 문제를 정확히 맞췄던 시절을 회상하는 의견이 있음. 그러나 문제를 약간 변형하면 성능이 떨어짐을 지적함 예를 들어, "9.99파운드 강철과 10.01파운드 솜 중 어느 것이 더 무겁나?"라는 질문에 잘못된 답변을 제공함 모델의 진정한 능력을 분석하려면 훈련 데이터에서 벗어나야 함 1905년 이전의 모든 디지털화된 데이터를 기반으로 모델을 훈련시키고 질량-에너지 등가 공식에 대해 묻는 실험을 보고 싶다는 의견이 있음 패턴 인식이 지능의 한 형태인지에 대한 논쟁을 해결할 수 있을 것이라는 기대 LLM의 실제 작업 성능이 아시아 스타일 시험을 위한 학생들의 벼락치기와 유사하다는 의견이 있음 의미를 이해하지 못한 채 완벽하게 되풀이하는 능력에 불과함 입력을 약간만 변형하면 모델이 예상했던 질문으로 돌아가 잘못된 답변을 제공할 수 있다는 의견이 있음 문제를 여러 각도에서 평가하고 결론을 내리도록 유도하면 더 나은 응답을 얻을 수 있음 LLM이 매우 어려운 수학 및 경쟁 프로그래밍 문제를 해결하는 데 여전히 뛰어나다는 의견이 있음 그러나 이전에 본 문제에 더 잘 대처함 모델이 현재 무작위 벤치마크에 대해 하드코딩되고 있다는 것이 공공연한 비밀인지에 대한 의문이 제기됨 문제의 재구성이 인간에게도 혼란을 줄 수 있다는 의견이 있음 최신 문제의 재구성 효과를 보고 싶다는 의견 패턴 매칭에 매우 효과적이지만 패턴을 변경하면 작동하지 않는다는 의견이 있음 전통적인 방식으로 훈련되었으며, 테스트 시간 계산이나 몬테카를로 트리 탐색이 없다는 점을 지적함 OpenAI가 특정 데이터셋에서 성능을 주장하지 않았다는 점을 지적하는 의견이 있음 데이터셋에 있는 질문에 대해 성능이 크게 향상된다는 결론을 내릴 수 있음 o1-preview에서 o1로의 성능 향상이 있었으며, 수정된 문제에 대해 올바른 답변을 제공했다는 의견이 있음 SOTA가 빠르게 변화하고 있음
Hacker News 의견
ChatGPT가 "10파운드 깃털과 10파운드 벽돌 중 어느 것이 더 무겁나?"라는 문제를 정확히 맞췄던 시절을 회상하는 의견이 있음. 그러나 문제를 약간 변형하면 성능이 떨어짐을 지적함
1905년 이전의 모든 디지털화된 데이터를 기반으로 모델을 훈련시키고 질량-에너지 등가 공식에 대해 묻는 실험을 보고 싶다는 의견이 있음
LLM의 실제 작업 성능이 아시아 스타일 시험을 위한 학생들의 벼락치기와 유사하다는 의견이 있음
입력을 약간만 변형하면 모델이 예상했던 질문으로 돌아가 잘못된 답변을 제공할 수 있다는 의견이 있음
LLM이 매우 어려운 수학 및 경쟁 프로그래밍 문제를 해결하는 데 여전히 뛰어나다는 의견이 있음
모델이 현재 무작위 벤치마크에 대해 하드코딩되고 있다는 것이 공공연한 비밀인지에 대한 의문이 제기됨
문제의 재구성이 인간에게도 혼란을 줄 수 있다는 의견이 있음
패턴 매칭에 매우 효과적이지만 패턴을 변경하면 작동하지 않는다는 의견이 있음
OpenAI가 특정 데이터셋에서 성능을 주장하지 않았다는 점을 지적하는 의견이 있음
o1-preview에서 o1로의 성능 향상이 있었으며, 수정된 문제에 대해 올바른 답변을 제공했다는 의견이 있음