Putnam 문제 약간 변형 시 O1-preview 정확도 30% 하락

(openreview.net)

1P by GN⁺ 2025-01-02 | ★ favorite | 댓글 1개

Putnam-AXIOM 벤치마크 소개
- Putnam-AXIOM은 대형 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위한 도전적인 벤치마크임.
- William Lowell Putnam Mathematical Competition의 236개 수학 문제와 단계별 솔루션을 포함함.
- 데이터 오염을 방지하기 위해 52개의 문제에 기능적 변형을 적용한 Putnam-AXIOM Variation 벤치마크를 생성함.
- 문제의 요소(변수, 상수 등)를 프로그램적으로 변경하여 온라인에 없는 새로운 문제를 무한히 생성할 수 있음.
벤치마크의 중요성 및 결과
- 대부분의 모델이 변형된 문제에서 원래 문제보다 정확도가 크게 낮아짐.
- OpenAI의 o1-preview 모델이 Putnam-AXIOM Original에서 41.95%의 정확도를 기록했으나, 변형된 데이터셋에서는 약 30%의 정확도 감소를 경험함.
리뷰어 피드백
- 리뷰어 9XA: 벤치마크가 문제 형식화, 답변 평등성 검사 등에서 노이즈를 최소화하도록 설계되었으나, 오염 방지 수준이 충분하지 않을 수 있음. 기능적 변형이 53개 문제에만 적용되어 평가의 힘이 감소할 수 있음.
- 리뷰어 krr4: 데이터셋이 236개의 예제로 구성되어 벤치마크로서 설득력이 부족할 수 있음. 대부분의 모델이 낮은 정확도를 보여 문제의 난이도가 더 계층적이어야 함.
- 리뷰어 Nbvs: 수학적 문제 해결 능력을 평가하기 위한 도전적인 문제 세트를 제공하는 좋은 기여임. 문제 변형이 현재의 박스 기반 평가 체계에서 문제 손실을 줄이는 좋은 전략이 될 수 있음.
- 리뷰어 MsMi: 새로운 어려운 추론 벤치마크로, 강력한 모델도 이 벤치마크에서 잘 수행하지 못함. "\boxed{}" 명령어 사용을 요구하여 벤치마크의 표현력을 제한함.
추가 질문 및 제안
- "\boxed{}" 명령어를 제대로 사용하지 않아 잘못 채점된 문제의 수에 대한 질문.
- 문제를 계속 편집하여 어떤 모델도 암기하지 못한 데이터셋을 유지할 수 있는 알고리듬적 방법에 대한 질문.

GN⁺ 2025-01-02 [-]

Hacker News 의견들

이 문제가 처음 나왔을 때 ChatGPT가 “깃털 10파운드와 벽돌 10파운드 중 뭐가 더 무거운가?”를 맞혀서 사람들이 들떠 있던 게 기억남
하지만 당연히 맞혔고, 그 문제는 학습 데이터에 있었을 가능성이 큼
명사만 바꾸거나 숫자를 바꿔 실제로 한쪽이 더 무겁게 만들면 성능이 들쭉날쭉해짐
방금 chatgpt.com에서 “9.99파운드 강철괴 한 봉지와 10.01파운드 푹신한 면화 한 봉지 중 뭐가 더 무거운가?”라고 물었더니, 첫 답변에서 강철괴가 더 무겁다고 했다가 마지막에는 면화가 조금 더 무겁다고 해 맞고도 틀린 답을 냄
이런 능력을 제대로 보려면 반드시 학습 데이터 밖으로 나가야 하고, 5초 안에 떠오르는 문제들은 대개 이미 자주 봤거나 다른 사람들도 쉽게 떠올릴 수 있는 것들임
조금만 익숙한 길에서 벗어나면 수학 성능은 훨씬 덜 인상적으로 보임
- ChatGPT Plus에서 새 세션으로 낚시 없이 첫 답만 보면 GPT-4, GPT-4o, GPT o1 모두 10.01파운드 면화 봉지가 9.99파운드 강철괴 봉지보다 무겁다고 정확히 답함
  재질이나 밀도와 무관하게 같은 단위의 무게 비교이므로 10.01이 9.99보다 크다는 식으로 설명함
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  지금까지 이 스레드에서 사람들이 LLM은 못 한다고 말한 과제들을 o1-mini가 전부 잘 처리하고 있음
- 구독 없이 시도하면 현재는 대부분 4o-mini로 생성된 답을 받게 될 가능성이 큼
  이건 링크된 논문에서 다루는 추론 모델 계열인 o1, o1-mini, 이전 o1-preview가 아님
  심지어 주력 비추론 모델인 4o도 아닐 수 있고, 무료 계정에서 표시되는 “4o auto”는 모델명이 아니라 비용 효율적으로 모델을 자동 선택하려는 장치로 보임
  ChatGPT 구독이 없으면 예전처럼 사용량 제한을 두고 특정 모델을 고르는 것도 이제 불가능함
- Claude 3.5 Sonnet에 고전적인 의사 수수께끼를 물었더니 사고 과정을 덧붙이면서 답은 나아졌지만, 실제로 이해하지 못한다는 흔적도 보임
  “여성과 아들이 교통사고를 당했고 여성은 사망, 아이를 본 의사가 ‘이 아이는 내 아들이라 수술할 수 없다’고 했다. 어떻게 가능한가?”라는 질문에, “의사는 아이의 아버지”라고 답하고 이것이 성별 편견을 보여주는 고전 수수께끼라고 설명함
  하지만 원래 의도는 의사가 어머니일 수 있다는 점을 묻는 문제였고, 동성 부모 가능성까지 덧붙였지만 핵심을 비껴감
- 내가 처음 접한 변형은 “깃털 1파운드와 금 1파운드 중 뭐가 더 무거운가?”였는데, 이건 훨씬 어려운 질문임
  들은 답은 금은 트로이 무게로 재고 깃털은 상용 무게로 재므로, 트로이 파운드는 12온스이고 상용 파운드는 16온스라 깃털이 더 무겁다는 것이었음
  이 말들은 모두 사실이지만 답은 불완전함
  상용 파운드가 트로이 파운드보다 무거운 것처럼, 상용 온스는 트로이 온스보다 가벼움
  다만 그 차이가 16온스 대 12온스 차이를 뒤집을 만큼 크지 않을 뿐임
  온스 차이를 인정하지 않으면 공식 답도 순진한 답만큼이나 틀린 답이 됨
실제로는 어렵겠지만 해보고 싶은 실험은 1905년 이전의 모든 디지털화된 자료, 즉 논문·편지·책·방송·강의 등을 학습시킨 뒤 질량-에너지 등가식을 물어보는 것임
확실한 답이 나오면 패턴 인식이 지능의 한 형태인지에 대한 논쟁을 끝낼 수 있을 듯함
- 질량과 에너지가 등가일 수 있다고 생각한 순간, 차원 분석만으로도 식의 선택지는 별로 없음
  E=mc^2에서 흥미로운 건 공식 자체가 아니라 질량이 에너지의 한 형태라는 주장과 우주에 대한 주변 관찰들임
  1905년의 실제 통찰은 올바른 질문을 던지고 등가 원리가 정말 성립할 수 있다고 상상한 쪽에 더 가까움
  수학의 상당 부분은 1905년 이전에 이미 있었고 AI 학습 데이터에도 들어갈 수 있음: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Adam Brown이 나온 팟캐스트에서 비슷한 아이디어를 들었음
  Einstein 이전 책과 논문만으로 AI가 특수상대성이론을 유도할 수 있다면, 인공 추론 발전에서 다음 게임 체인저급 이정표에 도달한 것이라는 생각임
- 특허 분쟁도 이런 식으로 판정하면 됨
  LLM이 알아낼 수 있다면 신규성이 없는 것으로 보면 됨
- 1905년 이전 데이터가 모델이 “hello world”를 안정적으로 말할 만큼 충분한지도 의문임
  괜찮은 LLM에 필요한 테라바이트급 학습 데이터는 존재하지 않을 것 같고, 기가바이트 수준에 그칠 듯함
실제 과제에서 LLM 성능은 아시아식 시험을 앞두고 벼락치기하는 학생과 아주 비슷하게 느껴짐
완벽하게 토해내는 능력은 있지만 의미 개념은 없음
- o3는 처음 보는 FrontierMath 문제에서 25%를 맞힘
  답이 데이터셋에 직접 있을 때 더 잘하는 건 맞지만, 보류된 문제의 새로움에 대해서는 이미 평균 인간을 넘어섰음
- JEE Advanced를 살펴보면 됨
- 결국 인간의 어리석음을 완벽하게 재현하는 데 성공했다는 또 하나의 증거에 가까움
입력을 아주 조금만 바꾸면 모델이 예상하던 질문으로 되돌아가서 틀리는 것 같음
조금 더 크게 바꾸고, “먼저 알려진 사실로 분해하고, 관련 배경지식을 가져온 다음, 여러 각도에서 평가해 결론을 내라. 가장 뻔한 첫 결론을 바로 쓰지 말라” 같은 범용 프롬프트 기법을 넣으면 답이 훨씬 좋아질 것임
이건 “LLM이 암기 없이는 이런 문제도 못 푸는 멍청한 추론기”라기보다, “예상한 패턴에서 속이려 할 때 LLM이 나쁜 즉답을 한다”에 가까워 보임
LLM이 암기하는 건 맞지만 양면성이 있음
암기된 문제와 너무 비슷하게 만들면 인간이 얼굴처럼 보이는 것에 본능적으로 반응했다가 다시 평가하는 것처럼 인식이 흔들릴 수 있음
흥미롭지만 몇 가지는 짚어야 함
첫째, o1은 변형된 Putnam 문제에서도 40%를 넘기는데, 이는 대부분의 수학 전공 학생도 달성하기 어려운 성과임
둘째, o3는 Epoch AI 데이터셋의 25%를 풀었음
그 문제들이 실제로 얼마나 어려운지 의문을 제기한 흥미로운 글도 있었지만, 여전히 매우 인상적임
공정한 결론은 추론 모델이 매우 어려운 수학·경쟁 프로그래밍 문제를 여전히 잘 풀지만, 본 적 있는 문제에서 더 강하다는 정도로 보임
- 이 스레드의 댓글들은 논문 내용과 완전히 동떨어져 있고, 제목도 분노 유도에 가깝고 논문 내용을 반영하지 않음
  그런 문제의 상당 부분을 풀 수 있다는 것 자체가 꽤 놀라운 성과이며, 사소한 변형에 가끔 속더라도 마찬가지임
  “사기”나 “허위” 같은 단어를 던지는 건 희망적 사고나 현실 회피에 가까움
모델들이 현재 무작위 벤치마크에 맞춰 하드코딩되고 있다는 게 공공연한 비밀인지 궁금함
챗봇에 Putnam 문제를 묻는다는 것 자체가 이상해 보임
- 사람들이 이런 모델에 수학 문제를 계속 묻고, 맞히면 실제로 수학적 추론을 할 수 있다는 증거로 인용하기 때문임
  모델이 무엇을 알고 있는지 판단하기 어려워서, 특정하게 학습한 내용을 그대로 뱉는 시점을 구분하기도 어려움
- 하드코딩은 아니고, 그 문제들이 어떤 형태로든 학습 데이터 안에 있을 가능성이 높다고 봄
- 설계상 하드코딩할 수 없는 시험도 통과하고 있음
  여전히 온갖 결함과 일관성 문제가 있지만, 누군가 2+2의 답을 학습시켰다는 이유로 “2+2=4”라고 답하는 데 화내는 건 어리석음
- 이 작업은 GSM-Symbolic 논문을 Putnam에 적용한 것과 비슷함: https://arxiv.org/html/2410.05229v1
  앞으로는 LLM 성능을 교란된 벤치마크에서도 함께 보고해야 함
이들은 매우 효과적인 패턴 매칭기임
패턴을 바꾸면 작동하지 않음
누군가, 아마 @tszzl(roon)이 X에서 o1이나 o3도 여전히 전통적인 방식으로 학습됐고, AlphaGo 같은 테스트 시점 연산이나 몬테카를로 트리 탐색은 없다고 말한 것으로 기억함
그게 사실이라면 여전히 학습 데이터에 기반해 다음 단어를 예측하는 것이고, 작은 변형에서도 학습에서 나온 가장 그럴듯한 경로를 따라갈 가능성이 큼
다만 테스트 시점 연산이 아직 제대로 탐구되지 않았다면 성능 향상 여지는 길게 남아 있음
또 추측이 어려운 이유는 우리가 묻는 것 중 얼마나 많은 부분이 학습 데이터에 들어 있는지 모르기 때문임
비슷한 과제라도 어떤 것은 잘하고 어떤 것은 실패할 수 있음
- 최근 OpenAI 연구자 인터뷰 두 개를 봤는데, o-series의 돌파구는 GPT series와 달리 테스트 시점 연산에 집중해 더 “생각”하도록 설계했고, 특히 패턴 매칭을 피하려는 것이라고 설명함
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 및 Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- 확장 가능한 테스트 시점 연산을 쓰고 있다고 봄
  o3 발표에서 높은 연산량과 낮은 연산량의 정확도 수치를 따로 공개했는데, 같은 모델에서 테스트 시점 연산 없이 그렇게 하기 어렵게 느껴짐
  200달러 구독도 답변을 강제하기 전에 테스트 시점 연산을 더 오래 돌리게 해주는 것이라고 봄
  다만 테스트 시점 연산이 없다는 말이 사실이라면, Hugging Face의 1B/3B 모델 실험을 봤을 때 결과 개선 여지는 엄청남
- OpenAI는 o1과 o3가 테스트 시점 연산을 사용한다고 공개적으로 밝혔고, 연산량이 지수적으로 늘 때 성능이 선형으로 좋아진다는 로그 스케일 그래프도 공개했음
  https://openai.com/index/learning-to-reason-with-llms/
  확인된 것은 모델 또는 시스템이 사고 사슬을 수행한다는 정도지만, 지수적 요인과 추론 성능 향상의 근원은 여러 추론 사슬 위에서 트리 탐색을 하는 사고 트리일 가능성이 큼
  roon은 OpenAI 내부에서 신원이 잘 알려져 있을 테고 직원이므로, 트위터에서 구현 세부사항을 유출하리라고 기대하긴 어려움
이 워크숍 기고는 괜찮고, 문제 재서술 부분이 없더라도 벤치마크는 어느 정도 가치가 있음
하지만 소수 문제만 재서술한 부분은 형편없는 표현(fig 3)이나 불필요한 관례 파괴(fig 4; 2차원 점은 보통 P와 좌표 x,y를 씀) 때문에 인간에게도 실제로 더 혼란스러워질 때가 있음
최신 또는 학습 이후 날짜 문제들에 대해 노이즈 증가에 따른 재서술 효과를 보여줬다면 이런 혼란의 일부를 구분하는 데 좋았을 것임
같은 벤치마크에서 o3가 얼마나 더 나을지도 궁금함
그리고 이 기고의 정확한 제목은 “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”임
논문에는 수정된 질문 예시가 여러 개 있음
o1-preview에서 o1로 상당한 도약이 있었으므로 몇 가지 샘플을 o1과 o1-pro에 넣어봤는데, 현재 o1 계열은 그 수정 문제들에 올바른 답을 냄
최신 최고 성능은 빠르게 바뀜
- 논문은 LLM이 정답을 내더라도 정당화 없이 큰 도약을 하거나, 비논리적 단계를 거친 끝에 맞는 해에 도달하는 경우가 여러 번 있다고 말함
  그런 부분도 확인했는지 궁금함
- LLM 지지자들은 정말 피곤함
  엄밀한 평가를 한 것도 아니고, 그 세트는 10월부터 공개되어 있어서 학습 데이터에 쉽게 추가됐을 수 있음
o3가 FrontierMath에서 25%를 맞혔다는 사실을 무시한 채 부정적인 댓글이 너무 많음
이건 정말 말도 안 되게 대단한 결과임
물론 문제의 답이 학습 데이터에 직접 들어 있으면 LLM이 더 잘함
하지만 답이 학습 데이터에 없을 때 못한다는 뜻은 아님
- EpochAI는 모델 채점을 위해 질문을 OpenAI에 보내야 하며, 정답지는 보내지 않음
  이 벤치마크에서 하룻밤 사이 2%에서 25% 로 뛰어오른 건 좀 흥미로운 현상임
- FrontierMath에서 잘한 건 맞지만, 이 스레드의 주제는 그게 아님
  그래서 그 말은 별로 관련이 없음

답변달기

Putnam 문제 약간 변형 시 O1-preview 정확도 30% 하락

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들