이 증명이 정말 검증된 건지 궁금했음
LLM이 자신감 있게 틀린 답을 내는 경우를 많이 봤기 때문임
OpenAI의 메모리 정책과 모델 접근 제한도 흥미로운 주제임
Tao가 직접 승인했음. 그 이상 확실한 검증은 없을 듯함
최근 Harmonic의 Aristotle이 Erdős 728 문제를 해결했다는 글이 있었음
이번 사례는 ChatGPT 5.2가 1시간 만에 답을 냈다는 것인데,
그게 반복 가능한지, 왜 그런 해법을 냈는지, 무엇을 증명한 건지가 불분명함
Tao의 검증이 신뢰를 주지만, 결국 “모델이 순수수학에 더 잘 맞게 훈련된 건가?”라는 의문이 남음 이전 사례와 ChatGPT 세션 링크 참고
이건 LLM이 수학 문제의 후보 증명을 생성하고,
이후 Lean 같은 형식 증명 시스템으로 검증하는 일련의 시도 중 하나임
Tao는 먼저 증명의 정확성을 보고, 그다음 문헌 검색으로 참신성을 확인함
현재는 완전히 새로운 증명은 거의 없지만, 새로운 접근법은 등장 중임
이번 사례도 처음엔 새 증명처럼 보였지만, 결국 Erdos가 이미 알고 있던 결과였음
Deepseek에 같은 프롬프트를 주었더니 ChatGPT보다 훨씬 빠르게 풀었음
두 증명을 Opus에 넣어보니 동등함을 확인했다고 함
하지만 “그냥 네가 직접 도장 찍은 거나 마찬가지”라며, 세부 검증이 부족하면 전체 증명이 무너질 수 있음이라는 지적이 나옴
수학적으로는 교집합의 밀도 부분이 충분한지 의문을 제기함
예시로 (U_k) 집합을 들어 반례 가능성을 언급함
Hacker News 의견들
그래서 LLM이 만든 증명은 Terence Tao의 위키 섹션 2로 이동되었음
관련 논의는 erdosproblems 포럼 글에 있음
더 이상한 건, 그 증명이 Erdős 본인의 논문에 있었는데도 그가 미해결 문제로 남겼다는 점임
이미 해법이 있었는데 아무도 몰랐던 건 사람들이 신경 쓰지 않았기 때문임
단순히 옛 문헌을 검색해서 ‘새로운 진전’이라 부르는 건 착각된 진보일 수 있음
순수수학의 많은 부분이 결국 지적 퍼즐 놀이처럼 느껴짐
Tao의 위키 설명에 따르면,
Erdos 문제는 난이도가 매우 다양하며, 일부는 AI가 풀기 좋은 저난이도 문제로 분류됨
쉬운 문제는 “최고의 수학자도 바로 풀지 못한 수준”이라 AI의 성능 지표로 적합함
AI가 발전할수록 점점 더 어려운 문제로 난이도 사다리를 오를 것이라 봄
정작 그 증명이 Erdos 본인 논문에 있었던 걸 몰랐음
그런데도 Fediverse와 트위터에서는 LLM 돌파구라며 떠들고 있음
LLM이 한계 교환이나 양화자 처리 오류를 피한 점이 인상적이었다고 함
이전 세대 모델이라면 이런 부분에서 실수했을 것이라며,
이 결과를 위키의 섹션 1에 등재했다고 밝힘
같은 결과가 이미 증명되어 있었음
Tao는 “새 증명은 기존 것과 다르지만, 섹션 2로 옮긴다”고 코멘트함
최신 모델들이 “100% 완벽한 코드”라며 자신 있게 말하지만 실제로는 충돌함
z.ai 결제 시도 중에도 오류가 나서 구매조차 안 됨
LLM은 놀라운 기술이지만, 동시에 과대평가된 기술임
로그나 실행 결과 같은 실증이 필요함
모델은 텍스트를 생성할 뿐이고, 앱이 그걸 검증해야 함
하지만 완벽한 텍스트 생성은 현재 불가능한 일임
LLM이 자신감 있게 틀린 답을 내는 경우를 많이 봤기 때문임
OpenAI의 메모리 정책과 모델 접근 제한도 흥미로운 주제임
이번 사례는 ChatGPT 5.2가 1시간 만에 답을 냈다는 것인데,
그게 반복 가능한지, 왜 그런 해법을 냈는지, 무엇을 증명한 건지가 불분명함
Tao의 검증이 신뢰를 주지만, 결국 “모델이 순수수학에 더 잘 맞게 훈련된 건가?”라는 의문이 남음
이전 사례와 ChatGPT 세션 링크 참고
관련 링크
이후 Lean 같은 형식 증명 시스템으로 검증하는 일련의 시도 중 하나임
Tao는 먼저 증명의 정확성을 보고, 그다음 문헌 검색으로 참신성을 확인함
현재는 완전히 새로운 증명은 거의 없지만, 새로운 접근법은 등장 중임
이번 사례도 처음엔 새 증명처럼 보였지만, 결국 Erdos가 이미 알고 있던 결과였음
두 증명을 Opus에 넣어보니 동등함을 확인했다고 함
세부 검증이 부족하면 전체 증명이 무너질 수 있음이라는 지적이 나옴
예시로 (U_k) 집합을 들어 반례 가능성을 언급함
관련 논의는 이 댓글 참고
ChatGPT나 Gemini Pro보다 수학적 정확도가 낮음
혹시 일부 전문 수학자들이 AI를 사용하고도 밝히지 않는 것 아닐까 하는 의문이 듦
마치 스포츠에서 도핑 경쟁처럼, 따라잡기 위해 다들 쓰게 될 것임
게다가 AI 사용은 규칙 위반도 아님
LLM이 아직 실질적 진전을 내지 못했을 가능성이 큼
개인적으로는 감사의 한 줄 정도가 적절하다고 생각함
수학 포닥으로서 GPT 5.2를 써보니 거짓말이 적고 실패 시 솔직함
반면 Gemini 3는 틀리면 허구의 정리를 만들어내는 경향이 있음
아니면 진짜 독창적 연구 성과인지가 궁금함
Erdos 문제는 난이도 편차가 크며, AI가 풀기 쉬운 저난이도 문제군이 존재함
Erdos 리스트에 오른 문제라면 최소한 누군가는 한 번쯤 시도했을 가능성이 있음