Erdos 281이 ChatGPT 5.2 Pro로 해결됨

(twitter.com/neelsomani)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Erdős #281은 무한히 많은 합동식들을 어떻게 고르더라도, 그 어느 합동식에도 해당하지 않는 정수들이 거의 남지 않는 상황을 전제로 한 문제
이러한 상황이 참이라면, 실제로는 무한한 합동식을 모두 사용하지 않아도 처음 몇 개만으로도 거의 모든 정수가 걸러진다고 말할 수 있는지에 대한 것
Neel Somani가 GPT-5.2 Pro를 사용해 이 질문에 대한 풀이를 제시했고, 여러 수학자들이 논리의 핵심 단계들을 중심으로 검토와 보완을 진행
개별 정수들을 직접 계산하는 방식 대신, 정수 전체를 하나의 공간으로 놓고 밀도와 극한의 성질을 이용해 문제를 다루는 접근 방식
같은 결론이 과거에 알려진 정리들의 조합으로도 도출될 수 있음이 드러나며, 이 연결이 오랫동안 눈에 띄지 않았던 이유에 대한 논의가 함께 이어짐

Erdős Problem #281 — 논의의 핵심 정리

Erdős #281은 무한히 많은 합동식이 주어졌을 때, 그 합동식들을 어떻게 선택하더라도 결국 거의 모든 정수가 그중 하나에는 포함되는 상황을 전제로 한 문제
모든 합동식을 다 적용하면 아무 합동식에도 속하지 않는 정수가 거의 남지 않는다는 성질을 이미 알고 있다는 설정
이 성질이 성립한다면, 실제로는 무한히 많은 합동식을 끝까지 사용하지 않아도 처음 몇 개만으로도 거의 같은 효과가 나타나는지에 대한 의문 제기
무한 단계에서 성립하는 결과가 유한 단계에서도 자동으로 보장되는지에 대한 질문 구조
최악의 잔여류 선택을 항상 허용하는 조건 아래에서 유한 개의 합동식만으로 충분하다고 말할 수 있는지에 대한 난점 존재

Neel Somani와 GPT-5.2 Pro 풀이의 접근 방식

개별 정수를 하나씩 따지는 대신, 정수 전체를 하나의 공간으로 보고 밀도 개념으로 문제를 다루는 접근
처음 k개의 합동식을 피하는 정수들의 집합을 하나의 대상으로 설정하는 방식
k가 커질수록 이 집합이 점점 줄어들고, 무한 단계에서의 결과로 수렴하는 구조 활용
무한히 많은 합동식을 모두 피하는 정수가 거의 없다는 가정으로부터 유한 단계에서도 충분히 작아질 수밖에 없다는 논리 전개
극한과 평균, 이동 성질을 이용한 전체적 흐름 구성

검토 과정과 논의의 전개

제시된 풀이에서 극한을 취하는 순서와 평균을 다루는 과정의 정당성에 대한 집중 검토
일부 단계에서 추가 설명과 보완이 필요하다는 지적 등장
여러 수학자들이 공개적으로 논리를 점검하며 단계별로 의미를 명확히 하는 과정 진행
결과적으로 논증의 핵심 구조가 유지된 채 더 명확한 형태로 다듬어진 흐름

고전 정리들과의 연결

동일한 결론이 과거에 알려진 정리들을 조합해서도 도출될 수 있음이 확인
무한히 많은 조건에서의 밀도 수렴을 다루는 결과와 유한 조건에서의 최악 경우를 설명하는 정리의 결합
이 연결을 통해 무한 단계의 성질이 유한 단계에서도 강하게 반영된다는 구조 드러남
왜 이러한 연결이 오랫동안 명확하게 정리되지 않았는지에 대한 논의 확산

왜 이 사례가 주목받는지

오래전에 제시된 문제가 AI 기반 풀이 제안을 계기로 다시 집중 조명된 사례
AI가 완성된 답을 단독으로 제시했다기보다는, 새로운 관점으로 논의를 촉발
문제를 어떤 언어와 틀로 옮겨 생각하느냐에 따라 난이도가 크게 달라진다는 점이 확인됨

▲

GN⁺ 2달전 [-]

Hacker News 의견들

이전에는 해결책이 없다고 했지만, 이제는 기존 해법이 발견됨
그래서 LLM이 만든 증명은 Terence Tao의 위키 섹션 2로 이동되었음
관련 논의는 erdosproblems 포럼 글에 있음
- Tao의 말이 흥미로움 — 새 증명은 기존 문헌의 증명과 꽤 다르다고 함
  더 이상한 건, 그 증명이 Erdős 본인의 논문에 있었는데도 그가 미해결 문제로 남겼다는 점임
- 이런 모델들이 인간이 연결하지 못한 지식의 점들을 잇는 자연어 검색 엔진처럼 작동하는 것 같음
- 사실 이 사례는 문제 자체가 중요하지 않다는 걸 보여줌
  이미 해법이 있었는데 아무도 몰랐던 건 사람들이 신경 쓰지 않았기 때문임
  단순히 옛 문헌을 검색해서 ‘새로운 진전’이라 부르는 건 착각된 진보일 수 있음
  순수수학의 많은 부분이 결국 지적 퍼즐 놀이처럼 느껴짐
Erdos 문제의 성격이 궁금했음 — 수학자들이 수년간 씨름한 난제들인지, 아니면 방치된 문제들인지
Tao의 위키 설명에 따르면,
Erdos 문제는 난이도가 매우 다양하며, 일부는 AI가 풀기 좋은 저난이도 문제로 분류됨
- Erdos는 엄청난 생산성을 가진 수학자로, 현상금 문제를 즐겨 냈음
  쉬운 문제는 “최고의 수학자도 바로 풀지 못한 수준”이라 AI의 성능 지표로 적합함
  AI가 발전할수록 점점 더 어려운 문제로 난이도 사다리를 오를 것이라 봄
- 너무 걱정할 필요 없음. Tao와 작성자도 Erdos 문제에 큰 관심이 없었고,
  정작 그 증명이 Erdos 본인 논문에 있었던 걸 몰랐음
  그런데도 Fediverse와 트위터에서는 LLM 돌파구라며 떠들고 있음
Tao가 포럼에서 직접 남긴 코멘트에 따르면,
LLM이 한계 교환이나 양화자 처리 오류를 피한 점이 인상적이었다고 함
이전 세대 모델이라면 이런 부분에서 실수했을 것이라며,
이 결과를 위키의 섹션 1에 등재했다고 밝힘
- 이후 누군가 문헌을 더 찾아보니, 1936년 Davenport와 Erdos의 논문에서
  같은 결과가 이미 증명되어 있었음
  Tao는 “새 증명은 기존 것과 다르지만, 섹션 2로 옮긴다”고 코멘트함
AI가 자기 주장부터 증명했으면 좋겠다는 생각임
최신 모델들이 “100% 완벽한 코드”라며 자신 있게 말하지만 실제로는 충돌함
z.ai 결제 시도 중에도 오류가 나서 구매조차 안 됨
LLM은 놀라운 기술이지만, 동시에 과대평가된 기술임
- AI의 코드를 검증하려면 인간처럼 테스트나 증거로 입증해야 함
  로그나 실행 결과 같은 실증이 필요함
- 모델과 앱을 구분해야 함
  모델은 텍스트를 생성할 뿐이고, 앱이 그걸 검증해야 함
  하지만 완벽한 텍스트 생성은 현재 불가능한 일임
Tao가 직접 참여한 erdosproblems 포럼 스레드가 있음
이 증명이 정말 검증된 건지 궁금했음
LLM이 자신감 있게 틀린 답을 내는 경우를 많이 봤기 때문임
OpenAI의 메모리 정책과 모델 접근 제한도 흥미로운 주제임
- Tao가 직접 승인했음. 그 이상 확실한 검증은 없을 듯함
최근 Harmonic의 Aristotle이 Erdős 728 문제를 해결했다는 글이 있었음
이번 사례는 ChatGPT 5.2가 1시간 만에 답을 냈다는 것인데,
그게 반복 가능한지, 왜 그런 해법을 냈는지, 무엇을 증명한 건지가 불분명함
Tao의 검증이 신뢰를 주지만, 결국 “모델이 순수수학에 더 잘 맞게 훈련된 건가?”라는 의문이 남음
이전 사례와 ChatGPT 세션 링크 참고
- 49일 전에도 #124 문제가 AI로 증명되었다는 사례가 있음
  관련 링크
- 이건 LLM이 수학 문제의 후보 증명을 생성하고,
  이후 Lean 같은 형식 증명 시스템으로 검증하는 일련의 시도 중 하나임
  Tao는 먼저 증명의 정확성을 보고, 그다음 문헌 검색으로 참신성을 확인함
  현재는 완전히 새로운 증명은 거의 없지만, 새로운 접근법은 등장 중임
  이번 사례도 처음엔 새 증명처럼 보였지만, 결국 Erdos가 이미 알고 있던 결과였음
Deepseek에 같은 프롬프트를 주었더니 ChatGPT보다 훨씬 빠르게 풀었음
두 증명을 Opus에 넣어보니 동등함을 확인했다고 함
- 하지만 “그냥 네가 직접 도장 찍은 거나 마찬가지”라며,
  세부 검증이 부족하면 전체 증명이 무너질 수 있음이라는 지적이 나옴
- 수학적으로는 교집합의 밀도 부분이 충분한지 의문을 제기함
  예시로 (U_k) 집합을 들어 반례 가능성을 언급함
- Kimi-k2의 추론 블록도 공유됨
- Deepseek이 기존 해법을 암기한 것인지 궁금하다는 의견도 있음
  관련 논의는 이 댓글 참고
- Opus는 수학에는 부적합하다는 의견도 있음
  ChatGPT나 Gemini Pro보다 수학적 정확도가 낮음
놀랍게도 LLM 증명의 상당수가 비전문가에게서 나옴
혹시 일부 전문 수학자들이 AI를 사용하고도 밝히지 않는 것 아닐까 하는 의문이 듦
- 사실 대부분의 전문가는 “내 전공 분야에서는 LLM이 멍청하다”고 느끼는 듯함
- 이런 무명의 AI 사용은 곧 일반화될 것 같음
  마치 스포츠에서 도핑 경쟁처럼, 따라잡기 위해 다들 쓰게 될 것임
  게다가 AI 사용은 규칙 위반도 아님
- 현실적으로는 전문가들이 이미 시도했지만,
  LLM이 아직 실질적 진전을 내지 못했을 가능성이 큼
- AI 기여 표기 방식을 고민 중임
  개인적으로는 감사의 한 줄 정도가 적절하다고 생각함
  수학 포닥으로서 GPT 5.2를 써보니 거짓말이 적고 실패 시 솔직함
  반면 Gemini 3는 틀리면 허구의 정리를 만들어내는 경향이 있음
LLM이 푼 Erdos 문제들이 단순히 인간이 건드리지 않은 쉬운 문제인지,
아니면 진짜 독창적 연구 성과인지가 궁금함
- Tao의 위키 경고문에 따르면,
  Erdos 문제는 난이도 편차가 크며, AI가 풀기 쉬운 저난이도 문제군이 존재함
- 그래도 LLM이 이런 저난이도 문제들을 정리하는 건 가치가 있음
  Erdos 리스트에 오른 문제라면 최소한 누군가는 한 번쯤 시도했을 가능성이 있음

답변달기