OpenAI 연구원이 GPT-5의 수학적 돌파구를 발표했으나 실제로는 일어나지 않음
(the-decoder.com)- OpenAI 연구원이 GPT-5가 해결했다고 주장한 Erdős 문제 관련 발표가 커뮤니티와 업계 인물들에게서 비판을 받자 곧 철회됨
- 해당 주장은 수십 년간 미해결로 여겨진 수학 난제의 실질적 증명을 AI가 독립적으로 찾아냈다는 의미로 해석될 수 있는 표현 사용
- 사실상 GPT-5는 기존 연구를 재발견해 보여준 수준이었으며, 진짜 미해결 문제에 대한 새로운 해법 제시가 아니었음
- 이 사건은 OpenAI의 신뢰성 저하와 검증되지 않은 AI 성과 과장 발표에 대한 업계 우려를 키우는 계기임
- 실제로 GPT-5의 강점은 연구 논문 탐색 및 문헌 정리 도우미 역할에 있다는 점이 강조됨
사건 개요
- 최근 OpenAI 연구원이 X(구 Twitter)에서 GPT-5가 "10개의 미해결 Erdős 문제 해결" 및 11개 문제 추가 진전이라는 획기적 성과를 발표함
- 이 주장은 GPT-5가 어려운 정수론 문제에 대한 수학적 증명을 독립적으로 도출했다는 취지로 받아들여짐
- 여러 OpenAI 연구원이 유사한 내용의 게시글을 올려, 이 AI가 혁신적인 과학적 발견을 실현할 수 있음을 암시함
커뮤니티의 검증과 논란
-
Erdosproblems.com 사이트를 운영하는 수학자 Thomas Bloom이 바로 반박하며, 사이트에서 "open"으로 표기한 문제는 실제로 미해결 문제가 아니라고 설명함
- 해당 문제들은 단순히 Bloom 본인이 답을 몰랐거나 기존 연구를 확인하지 못했던 사례임
- GPT-5는 이미 존재하던 연구 결과를 찾아냈을 뿐, 새로운 수학적 해법을 발견한 것이 아님
- 이 사실이 알려지자 OpenAI 연구원들은 게시글을 삭제하거나 내용을 수정함
- 커뮤니티와 주요 인사, 예를 들어 Deepmind CEO Demis Hassabis는 "민망한 일"이라 평가했고, Meta AI 담당자 Yann LeCun 역시 OpenAI가 자체 홍보에 현혹된 셈이라고 지적함
- 연구진들은 실수를 인정하고, GPT-5의 실제 역할에 대해 재설명했음
업계 신뢰 문제 및 비판
- 이 사건으로 OpenAI가 신뢰성·사실 확인 과정에서 문제를 드러냈다는 평가 확대
- 특히, AI 업계에 과장된 기대감과 관련주 투자 열기가 겹치며 검증되지 않은 성과 발표 우려가 커짐
- 왜 업계 선두 연구원들이 사실 확인 없이 극적인 주장을 공개했는지, 조직 내부 건전성에 대한 의문도 제기됨
실제 결과 및 AI의 수학 분야 역할
- 실질적으로 GPT-5는 어렵고 용어가 다양한 수학 문제에 대해 관련 논문, 연구 자료를 탐색해주는 도우미 역할로 유용성 입증
- 수학자 Terence Tao는 AI가 '최신 미해결 문제의 해법'이라기보다, 방대한 문헌 조사와 반복적 서치 작업을 크게 단축시켜줄 것으로 기대함
- 일부 독립적인 진전 사례가 존재하나, 현재로선 논문 찾기·정리 자동화 지원에 강점
- 향후 수학 분야에서 생성형 AI가 속도 향상 및 자동화에 기여할 잠재력 있음
- 하지만 전문가의 검증, 분류, 결과 통합이 필수적임
결론
- 이번 사건은 생성형 AI의 실제 한계와 산업적 가능성, 그리고 AI 연구 결과 과장 발표의 위험성을 모두 드러내는 대표적 사례임
- 결과적으로 GPT-5는 미해결 수학 문제의 혁신적 돌파구가 아니라, 연구 자료 정리에 도움을 주는 보조 도구로서의 잠재력이 강조됨
Hacker News 의견
-
OpenAI 팀에게 공정함을 기하기 위해 맥락을 살펴보면, 상황이 그리 악의적이진 않음이라고 생각함
삭제된 트윗은 "GPT-5가 10개의 (이전엔 풀리지 않았던) Erdös 문제를 해결했고, 또 11개도 진전이 있었다, 수십 년간 풀리지 않은 문제"라고 되어 있음
만약 이 트윗이 단독으로 올라왔다면 오해의 소지가 있다고 생각하겠지만, 실제로는 인용 트윗이었음
인용 첫 번째 원문(https://x.com/MarkSellke/status/1979226538059931886)은 "이걸 더 밀어붙이고 있다"는 내용임
그리고 이 트윗이 인용한 두 번째 원문(https://x.com/SebastienBubeck/status/1977181716457701775)에서는 GPT-5가 문헌 검색에 탁월해서 "실제로 20년 전에 풀린 문제를 찾아내, 아직 열린 문제로 분류됐던 Erdos 문제 #339를 '해결'했다"는 내용임
이 스레드를 순서대로 읽으면-
SebastienBubeck: "GPT-5는 문헌 검색에 매우 뛰어나서, 이미 해결된 해법을 찾아 아직 공개되어 있다고 생각되던 문제를 해결한 셈"
-
MarkSellke: "이제 10개 더 했다"
-
kevinweil: "우리가 해낸 멋진 결과를 보라!"
결국 인용 트윗 방식의 문제로, kevinweil이 여러 단계를 인용하다 보니 맨 처음 문제(실제로 이미 존재했던 해법을 찾은 것임)를 놓치고, 독자 입장에서는 오해할 수밖에 없는 구조임
이런 실수는 충분히 이해갈 수 있는 일로 보이고, 논란이 다소 과하다고 생각함 -
Weil이 게시했던 인용 트윗의 맥락을 충분히 고려하지 않았다는 점에 대해, 실제로 Weil 본인이 Sellke의 게시글을 오해했다고 직접 밝힌 사실이 있음(https://x.com/kevinweil/status/1979270343941591525에서 확인 가능)
Sellke는 "열린 문제로 분류된"이라고 했고, Weil은 "이전엔 풀리지 않은 문제"라고 언급한 게 다름 -
첫 번째 사람은 "20년 전에 이미 풀린 것을 알아내 문제를 '풀었다'"라고 했고, 두 번째 사람은 "이전엔 풀리지 않은 Erdös 문제 10개를 해결했다"고 했음
'이전엔 풀리지 않은'이라는 표현이 실제 맥락과는 다르지 않느냐는 생각임 -
혹시 내가 잘못 이해한 것이 아닌지 궁금해짐
DeepMind가 몇 달 전 “행렬 곱셈을 SOTA보다 더 잘한다”는 논문을 발표했을 때와 유사함
당시 Gemini가 새로운 최적화 해법을 찾았다고 했으나, 발표 직후 수학자들이 이미 30-40년 전 문헌에 있던 방법임을 바로 지적했고, 해당 내용이 Gemini의 학습 데이터에 있었을 가능성도 높았음 -
"GPT-5는 문헌 검색에 매우 뛰어남, 기존에 풀린 해법이 있는 문제를 '해결'"했다는 내용에 대해서
이건 생존자 편향이라고 생각함
실제로 GPT-5로 비교적 쉬운 검색에도 실패하는 경우가 많음
검색 결과가 맞는지 충분히 알거나, 직접 검증 과정이 필요함
주사위를 1000번 던지고 매번 더블 식스를 자랑하는 포스팅과 다를 게 없다는 느낌임
그걸로 내가 최고의 주사위 던지는 사람이라고 할 수 없는 것과 유사함
-
-
erdosproblems.com을 운영하는 수학자 Thomas Bloom이 바로 반박했던 내용을 언급
"해결되지 않은 문제(unsolved)"가 아니라, "내가 답을 모르는 것(open)"이라는 의미임을 강조했음
수학자가 '오픈'을 이렇게 정의하는 건 이상함이라는 생각임
내가 모르는 교재 문제를 '오픈 퀘스천'이라고 부르지 않는 것과 같음 -
"GPT-5가 문헌 리뷰 보조 도구로서 유용하다"는 주장에 반박
실제로는 굉장히 그럴듯하지만 가짜같은 결과물만 만든다는 생각임
그 결과에 만족하는 사람은 인생이 나보다 훨씬 쉬울 듯
난 엔지니어링 수학 논문 등 자료를 찾아 수 시간 도서관 뒤진 뒤, 마지막 방법으로 챗봇에게 희망을 걸게 됨
하지만 결국 결과가 이상해서 한참을 다시 검증하고, "이게 진짜 가능할 리가 없지"라는 실망만 남게 됨
이런 경험을 나만 겪는 건 아니라는 점도 느꼈음-
내가 문헌 조사 심층 검색을 자주 해보면, GPT는 약 50% 확률로 근거 없는(환각) 소스를 만들어냄
상위 수준 리뷰에서는 약 5% 정도 환각이 발생함
진짜 출처 50% 중 절반은 이미 익숙한 논문이고, 나머지 절반은 생소한 논문임
정말 좋은 점은, 기존에 찾기 어려운 논문을 종종 발견할 수 있다는 것임(Google Scholar 등으로 못 찾는 것 포함해서)
특히, 다른 분야에서 나온 관련 연구나, 잘 인용되지 않은 초록 논문 등 매우 다양한 소스를 만날 수 있음
전체 결과 중 75%가 쓸모 없거나 환각이어도, 나머지 25%가 너무 큰 가치를 주기 때문에 실제로 매우 유용함 -
'아예 유용하지 않다'고 단정하는 건 과장인 듯함
GPT는 50만 단어도 몇 분만에 검색해서, 요약과 상세 답, 각 주장마다 근거도 함께 제공해 줄 수 있음
물론 요약을 무조건 신뢰하면 안 되고, 중요한 정보는 반드시 출처를 눌러 검증해야 함
그래도 여전히 매우 뛰어난 검색 도구이자 생산성 부스터임 -
이름이 생각 안 나지만, 이런 원리가 있음
사람들이 아는 주제에 대한 신문 기사를 보면 허점이 다 보이고, "이게 어떻게 기사로 나왔냐"라는 생각이 들지만
모르는 주제 기사는 그냥 무비판적으로 믿게 되는 것처럼
ChatGPT에 대해서도 비슷한 맹신이 생기는 것 같다는 느낌임 -
사실 이런 GPT-5 등 챗봇을 검색/문헌 리뷰 용도로 무리하게 쓰려 하지 말고, 정말 강력한 의미 기반(semantic) 검색엔진을 활용하는 것이 더 나았을 수 있다는 생각이 듦
챗봇에게 요약이나 답을 맡길 때는 언제나 환각이 따라오게 됨
반면 LLM 임베딩 기반 문서 검색이라면 결과 자체가 환각일 위험이 전혀 없고, 기존 Google/Bing 등도 못 찾는 논문 탐색에 더 좋은 방법일 수도 있을 것 같음
이미 그런 서비스가 있으면 나만 모르는 것일 수도 있으니, 그 점은 감안 필요함 -
혹시 문헌 리뷰 툴에 관심 있다면, 내가 대학원 친구들을 위해 만든 공개 문헌 정리 플랫폼을 소개함
계층적 혼합 모델을 활용해 대량 검색과 인용 네트워크를 정리해주는 방식임
활용 예시: https://semanticscholar.org/paper/…">https://platform.sturdystatistics.com/deepdive/…
-
-
DeepMind에서 실제로 AI를 활용한 암 치료에 돌파구를 보인 같은 주간에, OpenAI 이슈가 드러난 게 대조적으로 상당히 안좋은 인상임
예전 상사 말이 떠오름 "새로운 정책이 필요하게 만드는 사람이 되지 말자"
OpenAI가 앞으로 커뮤니케이션 정책을 바꿔야 할 것 같음 -
OpenAI 직원들이 자사 모델의 실제 역량을 꽤 잘 알 것 같지만, 설령 그렇지 않더라도 인터넷상의 모든 주장에선 항상 조심해야 맞는다고 생각함
이런 문화가 결국 지금의 AI 과대광고 환경을 만들었다고 봄- “누군가를 이해시키기 어려운 이유는, 그 사람의 급여가 ‘이해하지 않는 것’에 달려 있기 때문”이라는 유명한 말이 생각남
-
이번 사건에서 드러난 건, OpenAI가 미해결 수학 문제에 진지하게 투자하고 있지 않다는 슬픈 진실임
-
그건 논리적 비약이라고 생각함
OpenAI 같은 대형 조직은 다양한 연구 부문 팀이 여러 방향으로 실험 중일 것이 분명하다고 봄 -
OpenAI가 광고와 성인 컨텐츠로 사업 축을 옮긴 순간 ‘점프 더 샤크’를 했구나라는 생각이 들었음
시장은 아직 이 사실을 반영하지 못함 -
단일 직원이 잘못된 발표를 했다고 해서, 그걸로 전체를 쉽게 평가하진 않겠음
-
-
OpenAI 직원들이 이런 식(마케팅 용어로)으로 발표할 것을 요청 받는 게 이상하지 않음
이번이 처음이 아니라, 이미 이전에도 GPT-5가 무언가를 ‘풀었다’고 주장한 사례가 있음(https://x.com/SebastienBubeck/status/1970875019803910478 참고)
점점 GPT-5가 마이너한 미해결 수학 문제(보통 박사과정 학생이 하루 이틀만에 해결할 수 있는 수준)는 충분히 풀 수 있는 사례가 많아지고 있음
아직 임팩트가 제대로 받아들여지진 않은 단계임 -
"자기가 만드는 것을 자기 자신이 지나치게 신뢰하지 말라"라는 조언이 그리워짐
- 이거 비누임, 이거! https://www.youtube.com/watch?v=RvGE-xhroy0
[두 번 오줌 마시기]
- 이거 비누임, 이거! https://www.youtube.com/watch?v=RvGE-xhroy0
-
Yann LeCun의 "Hoisted by their own GPTards"라는 표현이 인상적임
-
Yann이 똑똑하고 필드의 뿌리까지 통달한 건 맞지만, 요즘 부정적 흐름도 있고 공적 입장이 금방 틀린 사례도 많다고 느낌
이전에 젊은 연구자들과의 발표 자리에서 두 가지 강한 주장을 했었음- LLM은 수학 문제를 못 푼다: 소리만 근사할 뿐, 검증 가능한 문제에선 맥을 못 춘다고 했고
- LLM은 계획(plan)을 짜지 못한다는 것
그런데 1년 만에 이제 AI가 도구 활용, IMO 수상, 에이전트 기반 계획 등 제대로 하게 되었음
또 다른 주장이, LLM은 대화가 길어질수록 오류가 누적되어 결국 말도 안되는 결과로 간다는 것인데, 최근 롱컨텍스트와 RL조합 등으로 사실상 이 역시 극복된 사례가 많음
아무리 천재라 해도 한 개인 의견은 다소 걸러 들을 필요가 있다고 생각함
-
혹시 내가 맥락을 놓친 건지, Yann이 'retard'를 변형한 어휘를 쓴 게 의외임
평소라면 그런 언어는 Elon Musk 같은 사람이 쓸 법한 느낌임
어떤 맥락이었는지 궁금함
-
-
수천억 달러가 오고간 순환식 파이낸싱 스캔들 이후, AI업계나 인위적 과대광고에 관한 글을 볼 때 더이상 아무것도 놀랍지 않은 마음임