GN⁺: AI의 수학 능력: 수학자의 견해
(xenaproject.wordpress.com)-
o3와 FrontierMath 소개
- o3는 OpenAI의 새로운 언어 모델로, FrontierMath라는 비밀 데이터셋에서 25%의 점수를 기록함.
- FrontierMath는 Epoch AI가 발표한 어려운 수학 문제들로 구성된 비공개 데이터셋임.
- 데이터셋은 "이 숫자를 찾아라!"와 같은 문제로 구성되어 있으며, 자동으로 검증 가능한 명확한 답을 요구함.
-
FrontierMath 데이터셋의 난이도
- FrontierMath의 문제들은 연구 수학자에게도 비전형적이며, 일부 문제는 박사 과정 수준의 지식이 필요함.
- 데이터셋의 문제들은 수학적 증명보다는 숫자를 찾는 데 중점을 두고 있음.
- 수학 연구자들은 주로 증명이나 아이디어를 찾는 데 시간을 쓰기 때문에, FrontierMath는 AI 수학 연구에 중요한 데이터셋임.
-
AI의 수학적 능력
- AI는 현재 고등학교 수준의 수학 문제를 잘 해결하고 있으며, 곧 대학 수학 시험도 통과할 것으로 예상됨.
- 그러나 고급 학부 수준 이상의 혁신적인 아이디어를 생성하는 것은 여전히 도전적임.
- o3가 25%의 점수를 기록한 것은 놀라운 일이지만, 일부 문제는 대학생 수준이라는 주장이 있음.
-
수학 연구에서의 AI의 역할
- 수학 연구에서 중요한 것은 "이 정리를 증명하라!"는 문제를 해결하는 것임.
- DeepMind의 AlphaProof는 2024년 국제 수학 올림피아드 문제 중 4개를 해결하며, 일부는 완전한 Lean 증명으로 검증됨.
- AI가 수학 연구에서 더 큰 역할을 하려면, 인간이 이해할 수 있는 방식으로 증명을 설명할 수 있어야 함.
-
미래 전망
- AI가 수학 연구에서 더 큰 역할을 하려면, 인간이 이해할 수 있는 방식으로 증명을 설명할 수 있어야 함.
- AI의 발전은 빠르게 진행되고 있지만, 여전히 갈 길이 멀음.
- AI가 학부 수준의 장벽을 넘는 시점은 아직 불확실함.
Hacker News 의견
-
Reddit 스레드에서 세 가지 난이도 등급 중 25%는 T1(가장 쉬움)이고 50%는 T2임. 저자가 본 다섯 개의 공개 문제 중 두 개는 T1, 두 개는 T2였음. Glazer는 T1을 "IMO/학부 수준 문제"라고 설명했지만, 기사 작성자는 이를 학부 수준 문제로 보지 않음. LLM이 이미 저자가 놀랄 것이라고 말한 일을 하고 있음
- Glazer는 T1을 "IMO/학부"라고 부른 것을 후회했으며, 이는 IMO와 일반 학부 수준의 차이 때문만이 아님. 그는 "주요 결과를 블랙박스로 적용하는 것이 문제의 난이도를 지나치게 높이는 경우 문제를 한 단계 낮추게 된다"고 말함
-
ChatGPT를 사용하여 선형대수학을 이해하려고 했지만, 실제 수학에서는 자주 어리석은 실수를 함. 예를 들어, 벡터의 차원을 넘어 인덱싱하거나, 스칼라에 대해 행렬 분해를 시도하거나, 차원이 맞지 않는 행렬을 곱하려고 함
-
O1은 4o보다 오류를 더 잘 찾아내지만 여전히 어리석은 실수를 많이 함. 어느 정도 지식 있는 사람이 도움을 주지 않으면 일관되게 결과를 생성하기는 어려움
-
Akshay Venkatesh의 강연에서 자동화된 이론 증명이 더 보편화될 경우 "수학 직업"의 미래에 대해 논의함. 자동 추론의 발전이 연구 수학의 개념화와 수행 방식을 어떻게 변화시킬지에 대해 이야기함
-
18세 아들이 수학을 공부하고 싶어하는 부모로서 자동화로 인해 직업이 사라질까 걱정됨. 그러나 LLM이 완전히 대체할 수 있을지 의문임. LLM이 모든 것을 해결할 무한한 시간/자원을 가지고 있지 않기 때문에 여전히 인간의 역할이 있을 것이라고 생각함
-
LLM이 거의 모든 문제를 해결할 수 있는 문제 모음을 만들 수 있을지 모르지만, 인간의 추론을 대체할 수 있는 일반적인 문제 해결자가 될 것이라고는 생각하지 않음. AI가 인간처럼 독립적인 의미의 사회적 합리성을 개발할 수 있을 때까지 추론이 가능하지 않을 것임
-
ChatGPT가 기본적인 오류를 범한 예시를 제시함. 예를 들어, Stop-and-Wait ARQ의 효율성 공식을 유도하는 과정에서 잘못된 단계를 설명함. 또 다른 예로, 연습할 수 있는 삼단논법을 요청했을 때 일관성이 없는 삼단논법을 제공함
-
FrontierMath 데이터셋이 손상되었을 가능성을 제기함. OpenAI가 질문을 알고 있다면 다음 버전에서 FrontierMath 테스트에서 80% 이상을 달성할 수 있을 것이라고 예상함
-
Quantum 연구와 유사한 문제에 직면함. 전통적인 컴퓨터로 불가능한 계산을 수행해야만 진전을 입증할 수 있음. ChatGPT가 25% 점수를 기록했을 때, 그 25%가 훈련 세트의 질문과 얼마나 가까운지에 대한 의문이 제기됨
-
언어 모델이 리만 가설에 대한 "증명"을 제공할 가능성에 대해 우려함. 수학자들이 이러한 증명을 검증하려고 할 수 있지만, 많은 시간이 소요될 수 있음
-
IMO 2025에 기계가 참가하지 않을 것임. IMO에서는 "채점자" 개념이 없으며, 각국의 팀 리더와 심사위원 간의 협상을 통해 점수가 결정됨. AI 작업을 채점하기 위해 수백 명이 더 오래 머물지 않을 것임