Erdos 281이 ChatGPT 5.2 Pro로 해결

▲

GN⁺ 3달전 | parent | ★ favorite | on: Erdos 281이 ChatGPT 5.2 Pro로 해결됨(twitter.com/neelsomani)

Hacker News 의견들

이전에는 해결책이 없다고 했지만, 이제는 기존 해법이 발견됨
그래서 LLM이 만든 증명은 Terence Tao의 위키 섹션 2로 이동되었음
관련 논의는 erdosproblems 포럼 글에 있음
- Tao의 말이 흥미로움 — 새 증명은 기존 문헌의 증명과 꽤 다르다고 함
  더 이상한 건, 그 증명이 Erdős 본인의 논문에 있었는데도 그가 미해결 문제로 남겼다는 점임
- 이런 모델들이 인간이 연결하지 못한 지식의 점들을 잇는 자연어 검색 엔진처럼 작동하는 것 같음
- 사실 이 사례는 문제 자체가 중요하지 않다는 걸 보여줌
  이미 해법이 있었는데 아무도 몰랐던 건 사람들이 신경 쓰지 않았기 때문임
  단순히 옛 문헌을 검색해서 ‘새로운 진전’이라 부르는 건 착각된 진보일 수 있음
  순수수학의 많은 부분이 결국 지적 퍼즐 놀이처럼 느껴짐
Erdos 문제의 성격이 궁금했음 — 수학자들이 수년간 씨름한 난제들인지, 아니면 방치된 문제들인지
Tao의 위키 설명에 따르면,
Erdos 문제는 난이도가 매우 다양하며, 일부는 AI가 풀기 좋은 저난이도 문제로 분류됨
- Erdos는 엄청난 생산성을 가진 수학자로, 현상금 문제를 즐겨 냈음
  쉬운 문제는 “최고의 수학자도 바로 풀지 못한 수준”이라 AI의 성능 지표로 적합함
  AI가 발전할수록 점점 더 어려운 문제로 난이도 사다리를 오를 것이라 봄
- 너무 걱정할 필요 없음. Tao와 작성자도 Erdos 문제에 큰 관심이 없었고,
  정작 그 증명이 Erdos 본인 논문에 있었던 걸 몰랐음
  그런데도 Fediverse와 트위터에서는 LLM 돌파구라며 떠들고 있음
Tao가 포럼에서 직접 남긴 코멘트에 따르면,
LLM이 한계 교환이나 양화자 처리 오류를 피한 점이 인상적이었다고 함
이전 세대 모델이라면 이런 부분에서 실수했을 것이라며,
이 결과를 위키의 섹션 1에 등재했다고 밝힘
- 이후 누군가 문헌을 더 찾아보니, 1936년 Davenport와 Erdos의 논문에서
  같은 결과가 이미 증명되어 있었음
  Tao는 “새 증명은 기존 것과 다르지만, 섹션 2로 옮긴다”고 코멘트함
AI가 자기 주장부터 증명했으면 좋겠다는 생각임
최신 모델들이 “100% 완벽한 코드”라며 자신 있게 말하지만 실제로는 충돌함
z.ai 결제 시도 중에도 오류가 나서 구매조차 안 됨
LLM은 놀라운 기술이지만, 동시에 과대평가된 기술임
- AI의 코드를 검증하려면 인간처럼 테스트나 증거로 입증해야 함
  로그나 실행 결과 같은 실증이 필요함
- 모델과 앱을 구분해야 함
  모델은 텍스트를 생성할 뿐이고, 앱이 그걸 검증해야 함
  하지만 완벽한 텍스트 생성은 현재 불가능한 일임
Tao가 직접 참여한 erdosproblems 포럼 스레드가 있음
이 증명이 정말 검증된 건지 궁금했음
LLM이 자신감 있게 틀린 답을 내는 경우를 많이 봤기 때문임
OpenAI의 메모리 정책과 모델 접근 제한도 흥미로운 주제임
- Tao가 직접 승인했음. 그 이상 확실한 검증은 없을 듯함
최근 Harmonic의 Aristotle이 Erdős 728 문제를 해결했다는 글이 있었음
이번 사례는 ChatGPT 5.2가 1시간 만에 답을 냈다는 것인데,
그게 반복 가능한지, 왜 그런 해법을 냈는지, 무엇을 증명한 건지가 불분명함
Tao의 검증이 신뢰를 주지만, 결국 “모델이 순수수학에 더 잘 맞게 훈련된 건가?”라는 의문이 남음
이전 사례와 ChatGPT 세션 링크 참고
- 49일 전에도 #124 문제가 AI로 증명되었다는 사례가 있음
  관련 링크
- 이건 LLM이 수학 문제의 후보 증명을 생성하고,
  이후 Lean 같은 형식 증명 시스템으로 검증하는 일련의 시도 중 하나임
  Tao는 먼저 증명의 정확성을 보고, 그다음 문헌 검색으로 참신성을 확인함
  현재는 완전히 새로운 증명은 거의 없지만, 새로운 접근법은 등장 중임
  이번 사례도 처음엔 새 증명처럼 보였지만, 결국 Erdos가 이미 알고 있던 결과였음
Deepseek에 같은 프롬프트를 주었더니 ChatGPT보다 훨씬 빠르게 풀었음
두 증명을 Opus에 넣어보니 동등함을 확인했다고 함
- 하지만 “그냥 네가 직접 도장 찍은 거나 마찬가지”라며,
  세부 검증이 부족하면 전체 증명이 무너질 수 있음이라는 지적이 나옴
- 수학적으로는 교집합의 밀도 부분이 충분한지 의문을 제기함
  예시로 (U_k) 집합을 들어 반례 가능성을 언급함
- Kimi-k2의 추론 블록도 공유됨
- Deepseek이 기존 해법을 암기한 것인지 궁금하다는 의견도 있음
  관련 논의는 이 댓글 참고
- Opus는 수학에는 부적합하다는 의견도 있음
  ChatGPT나 Gemini Pro보다 수학적 정확도가 낮음
놀랍게도 LLM 증명의 상당수가 비전문가에게서 나옴
혹시 일부 전문 수학자들이 AI를 사용하고도 밝히지 않는 것 아닐까 하는 의문이 듦
- 사실 대부분의 전문가는 “내 전공 분야에서는 LLM이 멍청하다”고 느끼는 듯함
- 이런 무명의 AI 사용은 곧 일반화될 것 같음
  마치 스포츠에서 도핑 경쟁처럼, 따라잡기 위해 다들 쓰게 될 것임
  게다가 AI 사용은 규칙 위반도 아님
- 현실적으로는 전문가들이 이미 시도했지만,
  LLM이 아직 실질적 진전을 내지 못했을 가능성이 큼
- AI 기여 표기 방식을 고민 중임
  개인적으로는 감사의 한 줄 정도가 적절하다고 생각함
  수학 포닥으로서 GPT 5.2를 써보니 거짓말이 적고 실패 시 솔직함
  반면 Gemini 3는 틀리면 허구의 정리를 만들어내는 경향이 있음
LLM이 푼 Erdos 문제들이 단순히 인간이 건드리지 않은 쉬운 문제인지,
아니면 진짜 독창적 연구 성과인지가 궁금함
- Tao의 위키 경고문에 따르면,
  Erdos 문제는 난이도 편차가 크며, AI가 풀기 쉬운 저난이도 문제군이 존재함
- 그래도 LLM이 이런 저난이도 문제들을 정리하는 건 가치가 있음
  Erdos 리스트에 오른 문제라면 최소한 누군가는 한 번쯤 시도했을 가능성이 있음