1P by neo 2달전 | ★ favorite | 댓글 1개
  • Putnam-AXIOM 벤치마크 소개

    • Putnam-AXIOM은 대형 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위한 도전적인 벤치마크임.
    • William Lowell Putnam Mathematical Competition의 236개 수학 문제와 단계별 솔루션을 포함함.
    • 데이터 오염을 방지하기 위해 52개의 문제에 기능적 변형을 적용한 Putnam-AXIOM Variation 벤치마크를 생성함.
    • 문제의 요소(변수, 상수 등)를 프로그램적으로 변경하여 온라인에 없는 새로운 문제를 무한히 생성할 수 있음.
  • 벤치마크의 중요성 및 결과

    • 대부분의 모델이 변형된 문제에서 원래 문제보다 정확도가 크게 낮아짐.
    • OpenAI의 o1-preview 모델이 Putnam-AXIOM Original에서 41.95%의 정확도를 기록했으나, 변형된 데이터셋에서는 약 30%의 정확도 감소를 경험함.
  • 리뷰어 피드백

    • 리뷰어 9XA: 벤치마크가 문제 형식화, 답변 평등성 검사 등에서 노이즈를 최소화하도록 설계되었으나, 오염 방지 수준이 충분하지 않을 수 있음. 기능적 변형이 53개 문제에만 적용되어 평가의 힘이 감소할 수 있음.
    • 리뷰어 krr4: 데이터셋이 236개의 예제로 구성되어 벤치마크로서 설득력이 부족할 수 있음. 대부분의 모델이 낮은 정확도를 보여 문제의 난이도가 더 계층적이어야 함.
    • 리뷰어 Nbvs: 수학적 문제 해결 능력을 평가하기 위한 도전적인 문제 세트를 제공하는 좋은 기여임. 문제 변형이 현재의 박스 기반 평가 체계에서 문제 손실을 줄이는 좋은 전략이 될 수 있음.
    • 리뷰어 MsMi: 새로운 어려운 추론 벤치마크로, 강력한 모델도 이 벤치마크에서 잘 수행하지 못함. "\boxed{}" 명령어 사용을 요구하여 벤치마크의 표현력을 제한함.
  • 추가 질문 및 제안

    • "\boxed{}" 명령어를 제대로 사용하지 않아 잘못 채점된 문제의 수에 대한 질문.
    • 문제를 계속 편집하여 어떤 모델도 암기하지 못한 데이터셋을 유지할 수 있는 알고리듬적 방법에 대한 질문.
Hacker News 의견
  • ChatGPT가 "10파운드 깃털과 10파운드 벽돌 중 어느 것이 더 무겁나?"라는 문제를 정확히 맞췄던 시절을 회상하는 의견이 있음. 그러나 문제를 약간 변형하면 성능이 떨어짐을 지적함

    • 예를 들어, "9.99파운드 강철과 10.01파운드 솜 중 어느 것이 더 무겁나?"라는 질문에 잘못된 답변을 제공함
    • 모델의 진정한 능력을 분석하려면 훈련 데이터에서 벗어나야 함
  • 1905년 이전의 모든 디지털화된 데이터를 기반으로 모델을 훈련시키고 질량-에너지 등가 공식에 대해 묻는 실험을 보고 싶다는 의견이 있음

    • 패턴 인식이 지능의 한 형태인지에 대한 논쟁을 해결할 수 있을 것이라는 기대
  • LLM의 실제 작업 성능이 아시아 스타일 시험을 위한 학생들의 벼락치기와 유사하다는 의견이 있음

    • 의미를 이해하지 못한 채 완벽하게 되풀이하는 능력에 불과함
  • 입력을 약간만 변형하면 모델이 예상했던 질문으로 돌아가 잘못된 답변을 제공할 수 있다는 의견이 있음

    • 문제를 여러 각도에서 평가하고 결론을 내리도록 유도하면 더 나은 응답을 얻을 수 있음
  • LLM이 매우 어려운 수학 및 경쟁 프로그래밍 문제를 해결하는 데 여전히 뛰어나다는 의견이 있음

    • 그러나 이전에 본 문제에 더 잘 대처함
  • 모델이 현재 무작위 벤치마크에 대해 하드코딩되고 있다는 것이 공공연한 비밀인지에 대한 의문이 제기됨

  • 문제의 재구성이 인간에게도 혼란을 줄 수 있다는 의견이 있음

    • 최신 문제의 재구성 효과를 보고 싶다는 의견
  • 패턴 매칭에 매우 효과적이지만 패턴을 변경하면 작동하지 않는다는 의견이 있음

    • 전통적인 방식으로 훈련되었으며, 테스트 시간 계산이나 몬테카를로 트리 탐색이 없다는 점을 지적함
  • OpenAI가 특정 데이터셋에서 성능을 주장하지 않았다는 점을 지적하는 의견이 있음

    • 데이터셋에 있는 질문에 대해 성능이 크게 향상된다는 결론을 내릴 수 있음
  • o1-preview에서 o1로의 성능 향상이 있었으며, 수정된 문제에 대해 올바른 답변을 제공했다는 의견이 있음

    • SOTA가 빠르게 변화하고 있음