# OpenAI 연구원이 GPT-5의 수학적 돌파구를 발표했으나 실제로는 일어나지 않음

> Clean Markdown view of GeekNews topic #23769. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23769](https://news.hada.io/topic?id=23769)
- GeekNews Markdown: [https://news.hada.io/topic/23769.md](https://news.hada.io/topic/23769.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-20T09:43:35+09:00
- Updated: 2025-10-20T09:43:35+09:00
- Original source: [the-decoder.com](https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/)
- Points: 1
- Comments: 1

## Topic Body

- **OpenAI 연구원**이 GPT-5가 해결했다고 주장한 **Erdős 문제** 관련 발표가 커뮤니티와 업계 인물들에게서 **비판을 받자 곧 철회됨**
- 해당 주장은 **수십 년간 미해결로 여겨진 수학 난제의 실질적 증명**을 AI가 독립적으로 찾아냈다는 의미로 해석될 수 있는 표현 사용
- 사실상 GPT-5는 기존 연구를 재발견해 보여준 수준이었으며, **진짜 미해결 문제에 대한 새로운 해법 제시가 아니었음**
- 이 사건은 **OpenAI의 신뢰성 저하**와 검증되지 않은 AI 성과 과장 발표에 대한 업계 우려를 키우는 계기임
- 실제로 **GPT-5의 강점은 연구 논문 탐색 및 문헌 정리 도우미 역할**에 있다는 점이 강조됨

---

### 사건 개요

- 최근 **OpenAI 연구원**이 X(구 Twitter)에서 **GPT-5**가 "10개의 미해결 Erdős 문제 해결" 및 11개 문제 추가 진전이라는 획기적 성과를 발표함
- 이 주장은 GPT-5가 어려운 **정수론 문제에 대한 수학적 증명**을 독립적으로 도출했다는 취지로 받아들여짐
- 여러 OpenAI 연구원이 유사한 내용의 게시글을 올려, 이 AI가 **혁신적인 과학적 발견**을 실현할 수 있음을 암시함

### 커뮤니티의 검증과 논란

- **Erdosproblems.com 사이트를 운영하는 수학자 Thomas Bloom**이 바로 반박하며, 사이트에서 "open"으로 표기한 문제는 실제로 미해결 문제가 아니라고 설명함
  - 해당 문제들은 단순히 Bloom 본인이 답을 몰랐거나 기존 연구를 확인하지 못했던 사례임
  - **GPT-5는 이미 존재하던 연구 결과를 찾아냈을 뿐, 새로운 수학적 해법을 발견한 것이 아님**
- 이 사실이 알려지자 OpenAI 연구원들은 게시글을 삭제하거나 내용을 수정함
- 커뮤니티와 주요 인사, 예를 들어 **Deepmind CEO Demis Hassabis**는 "민망한 일"이라 평가했고, **Meta AI 담당자 Yann LeCun** 역시 OpenAI가 자체 홍보에 현혹된 셈이라고 지적함
- 연구진들은 **실수를 인정**하고, GPT-5의 실제 역할에 대해 재설명했음

### 업계 신뢰 문제 및 비판

- 이 사건으로 **OpenAI가 신뢰성**·사실 확인 과정에서 문제를 드러냈다는 평가 확대
  - 특히, AI 업계에 과장된 기대감과 관련주 투자 열기가 겹치며 검증되지 않은 성과 발표 우려가 커짐
- 왜 업계 선두 연구원들이 사실 확인 없이 극적인 주장을 공개했는지, 조직 내부 건전성에 대한 의문도 제기됨

### 실제 결과 및 AI의 수학 분야 역할

- **실질적으로 GPT-5는 어렵고 용어가 다양한 수학 문제에 대해 관련 논문, 연구 자료를 탐색해주는 도우미 역할**로 유용성 입증
- 수학자 **Terence Tao**는 AI가 '최신 미해결 문제의 해법'이라기보다, 방대한 문헌 조사와 반복적 서치 작업을 크게 단축시켜줄 것으로 기대함
  - 일부 독립적인 진전 사례가 존재하나, 현재로선 **논문 찾기·정리 자동화 지원**에 강점
- 향후 수학 분야에서 **생성형 AI가 속도 향상 및 자동화에 기여**할 잠재력 있음
  - 하지만 **전문가의 검증, 분류, 결과 통합이 필수적**임

### 결론

- 이번 사건은 **생성형 AI의 실제 한계와 산업적 가능성, 그리고 AI 연구 결과 과장 발표의 위험성**을 모두 드러내는 대표적 사례임
- 결과적으로 **GPT-5는 미해결 수학 문제의 혁신적 돌파구가 아니라, 연구 자료 정리에 도움을 주는 보조 도구로서의 잠재력**이 강조됨

## Comments


### Comment 45153

- Author: neo
- Created: 2025-10-20T09:43:35+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45633482) 
* OpenAI 팀에게 공정함을 기하기 위해 맥락을 살펴보면, 상황이 그리 악의적이진 않음이라고 생각함  
  삭제된 트윗은 "GPT-5가 10개의 (이전엔 풀리지 않았던) Erdös 문제를 해결했고, 또 11개도 진전이 있었다, 수십 년간 풀리지 않은 문제"라고 되어 있음  
  만약 이 트윗이 단독으로 올라왔다면 오해의 소지가 있다고 생각하겠지만, 실제로는 인용 트윗이었음  
  인용 첫 번째 원문(https://x.com/MarkSellke/status/1979226538059931886)은 "이걸 더 밀어붙이고 있다"는 내용임  
  그리고 이 트윗이 인용한 두 번째 원문(https://x.com/SebastienBubeck/status/1977181716457701775)에서는 GPT-5가 문헌 검색에 탁월해서 "실제로 20년 전에 풀린 문제를 찾아내, 아직 열린 문제로 분류됐던 Erdos 문제 #339를 '해결'했다"는 내용임  
  이 스레드를 순서대로 읽으면  
    * SebastienBubeck: "GPT-5는 문헌 검색에 매우 뛰어나서, 이미 해결된 해법을 찾아 아직 공개되어 있다고 생각되던 문제를 해결한 셈"  
    * MarkSellke: "이제 10개 더 했다"  
    * kevinweil: "우리가 해낸 멋진 결과를 보라!"  
  결국 인용 트윗 방식의 문제로, kevinweil이 여러 단계를 인용하다 보니 맨 처음 문제(실제로 이미 존재했던 해법을 찾은 것임)를 놓치고, 독자 입장에서는 오해할 수밖에 없는 구조임  
  이런 실수는 충분히 이해갈 수 있는 일로 보이고, 논란이 다소 과하다고 생각함

  * Weil이 게시했던 인용 트윗의 맥락을 충분히 고려하지 않았다는 점에 대해, 실제로 Weil 본인이 Sellke의 게시글을 오해했다고 직접 밝힌 사실이 있음(https://x.com/kevinweil/status/1979270343941591525에서 확인 가능)  
    Sellke는 "열린 문제로 분류된"이라고 했고, Weil은 "이전엔 풀리지 않은 문제"라고 언급한 게 다름

  * 첫 번째 사람은 "20년 전에 이미 풀린 것을 알아내 문제를 '풀었다'"라고 했고, 두 번째 사람은 "이전엔 풀리지 않은 Erdös 문제 10개를 해결했다"고 했음  
    '이전엔 풀리지 않은'이라는 표현이 실제 맥락과는 다르지 않느냐는 생각임

  * 혹시 내가 잘못 이해한 것이 아닌지 궁금해짐  
    DeepMind가 몇 달 전 “행렬 곱셈을 SOTA보다 더 잘한다”는 논문을 발표했을 때와 유사함  
    당시 Gemini가 새로운 최적화 해법을 찾았다고 했으나, 발표 직후 수학자들이 이미 30-40년 전 문헌에 있던 방법임을 바로 지적했고, 해당 내용이 Gemini의 학습 데이터에 있었을 가능성도 높았음

  * "GPT-5는 문헌 검색에 매우 뛰어남, 기존에 풀린 해법이 있는 문제를 '해결'"했다는 내용에 대해서  
    이건 생존자 편향이라고 생각함  
    실제로 GPT-5로 비교적 쉬운 검색에도 실패하는 경우가 많음  
    검색 결과가 맞는지 충분히 알거나, 직접 검증 과정이 필요함  
    주사위를 1000번 던지고 매번 더블 식스를 자랑하는 포스팅과 다를 게 없다는 느낌임  
    그걸로 내가 최고의 주사위 던지는 사람이라고 할 수 없는 것과 유사함

* erdosproblems.com을 운영하는 수학자 Thomas Bloom이 바로 반박했던 내용을 언급  
  "해결되지 않은 문제(unsolved)"가 아니라, "내가 답을 모르는 것(open)"이라는 의미임을 강조했음  
  수학자가 '오픈'을 이렇게 정의하는 건 이상함이라는 생각임  
  내가 모르는 교재 문제를 '오픈 퀘스천'이라고 부르지 않는 것과 같음

* "GPT-5가 문헌 리뷰 보조 도구로서 유용하다"는 주장에 반박  
  실제로는 굉장히 그럴듯하지만 가짜같은 결과물만 만든다는 생각임  
  그 결과에 만족하는 사람은 인생이 나보다 훨씬 쉬울 듯  
  난 엔지니어링 수학 논문 등 자료를 찾아 수 시간 도서관 뒤진 뒤, 마지막 방법으로 챗봇에게 희망을 걸게 됨  
  하지만 결국 결과가 이상해서 한참을 다시 검증하고, "이게 진짜 가능할 리가 없지"라는 실망만 남게 됨  
  이런 경험을 나만 겪는 건 아니라는 점도 느꼈음

  * 내가 문헌 조사 심층 검색을 자주 해보면, GPT는 약 50% 확률로 근거 없는(환각) 소스를 만들어냄  
    상위 수준 리뷰에서는 약 5% 정도 환각이 발생함  
    진짜 출처 50% 중 절반은 이미 익숙한 논문이고, 나머지 절반은 생소한 논문임  
    정말 좋은 점은, 기존에 찾기 어려운 논문을 종종 발견할 수 있다는 것임(Google Scholar 등으로 못 찾는 것 포함해서)  
    특히, 다른 분야에서 나온 관련 연구나, 잘 인용되지 않은 초록 논문 등 매우 다양한 소스를 만날 수 있음  
    전체 결과 중 75%가 쓸모 없거나 환각이어도, 나머지 25%가 너무 큰 가치를 주기 때문에 실제로 매우 유용함

  * '아예 유용하지 않다'고 단정하는 건 과장인 듯함  
    GPT는 50만 단어도 몇 분만에 검색해서, 요약과 상세 답, 각 주장마다 근거도 함께 제공해 줄 수 있음  
    물론 요약을 무조건 신뢰하면 안 되고, 중요한 정보는 반드시 출처를 눌러 검증해야 함  
    그래도 여전히 매우 뛰어난 검색 도구이자 생산성 부스터임

  * 이름이 생각 안 나지만, 이런 원리가 있음  
    사람들이 아는 주제에 대한 신문 기사를 보면 허점이 다 보이고, "이게 어떻게 기사로 나왔냐"라는 생각이 들지만  
    모르는 주제 기사는 그냥 무비판적으로 믿게 되는 것처럼  
    ChatGPT에 대해서도 비슷한 맹신이 생기는 것 같다는 느낌임

  * 사실 이런 GPT-5 등 챗봇을 검색/문헌 리뷰 용도로 무리하게 쓰려 하지 말고, 정말 강력한 의미 기반(semantic) 검색엔진을 활용하는 것이 더 나았을 수 있다는 생각이 듦  
    챗봇에게 요약이나 답을 맡길 때는 언제나 환각이 따라오게 됨  
    반면 LLM 임베딩 기반 문서 검색이라면 결과 자체가 환각일 위험이 전혀 없고, 기존 Google/Bing 등도 못 찾는 논문 탐색에 더 좋은 방법일 수도 있을 것 같음  
    이미 그런 서비스가 있으면 나만 모르는 것일 수도 있으니, 그 점은 감안 필요함

  * 혹시 문헌 리뷰 툴에 관심 있다면, 내가 대학원 친구들을 위해 만든 공개 문헌 정리 플랫폼을 소개함  
    계층적 혼합 모델을 활용해 대량 검색과 인용 네트워크를 정리해주는 방식임  
    활용 예시: [https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all](https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all)

* DeepMind에서 실제로 AI를 활용한 암 치료에 돌파구를 보인 같은 주간에, OpenAI 이슈가 드러난 게 대조적으로 상당히 안좋은 인상임  
  예전 상사 말이 떠오름 "새로운 정책이 필요하게 만드는 사람이 되지 말자"  
  OpenAI가 앞으로 커뮤니케이션 정책을 바꿔야 할 것 같음

* OpenAI 직원들이 자사 모델의 실제 역량을 꽤 잘 알 것 같지만, 설령 그렇지 않더라도 인터넷상의 모든 주장에선 항상 조심해야 맞는다고 생각함  
  이런 문화가 결국 지금의 AI 과대광고 환경을 만들었다고 봄

  * “누군가를 이해시키기 어려운 이유는, 그 사람의 급여가 ‘이해하지 않는 것’에 달려 있기 때문”이라는 유명한 말이 생각남

* 이번 사건에서 드러난 건, OpenAI가 미해결 수학 문제에 진지하게 투자하고 있지 않다는 슬픈 진실임

  * 그건 논리적 비약이라고 생각함  
    OpenAI 같은 대형 조직은 다양한 연구 부문 팀이 여러 방향으로 실험 중일 것이 분명하다고 봄

  * OpenAI가 광고와 성인 컨텐츠로 사업 축을 옮긴 순간 ‘점프 더 샤크’를 했구나라는 생각이 들었음  
    시장은 아직 이 사실을 반영하지 못함

  * 단일 직원이 잘못된 발표를 했다고 해서, 그걸로 전체를 쉽게 평가하진 않겠음

* OpenAI 직원들이 이런 식(마케팅 용어로)으로 발표할 것을 요청 받는 게 이상하지 않음  
  이번이 처음이 아니라, 이미 이전에도 GPT-5가 무언가를 ‘풀었다’고 주장한 사례가 있음(https://x.com/SebastienBubeck/status/1970875019803910478 참고)  
  점점 GPT-5가 마이너한 미해결 수학 문제(보통 박사과정 학생이 하루 이틀만에 해결할 수 있는 수준)는 충분히 풀 수 있는 사례가 많아지고 있음  
  아직 임팩트가 제대로 받아들여지진 않은 단계임

* "자기가 만드는 것을 자기 자신이 지나치게 신뢰하지 말라"라는 조언이 그리워짐

  * 이거 비누임, 이거! [https://www.youtube.com/watch?v=RvGE-xhroy0](https://www.youtube.com/watch?v=RvGE-xhroy0)  
    [두 번 오줌 마시기]

* Yann LeCun의 "Hoisted by their own GPTards"라는 표현이 인상적임

  * Yann이 똑똑하고 필드의 뿌리까지 통달한 건 맞지만, 요즘 부정적 흐름도 있고 공적 입장이 금방 틀린 사례도 많다고 느낌  
    이전에 젊은 연구자들과의 발표 자리에서 두 가지 강한 주장을 했었음  
    1) LLM은 수학 문제를 못 푼다: 소리만 근사할 뿐, 검증 가능한 문제에선 맥을 못 춘다고 했고  
    2) LLM은 계획(plan)을 짜지 못한다는 것  
    그런데 1년 만에 이제 AI가 도구 활용, IMO 수상, 에이전트 기반 계획 등 제대로 하게 되었음  
    또 다른 주장이, LLM은 대화가 길어질수록 오류가 누적되어 결국 말도 안되는 결과로 간다는 것인데, 최근 롱컨텍스트와 RL조합 등으로 사실상 이 역시 극복된 사례가 많음  
    아무리 천재라 해도 한 개인 의견은 다소 걸러 들을 필요가 있다고 생각함

  * 혹시 내가 맥락을 놓친 건지, Yann이 'retard'를 변형한 어휘를 쓴 게 의외임  
    평소라면 그런 언어는 Elon Musk 같은 사람이 쓸 법한 느낌임  
    어떤 맥락이었는지 궁금함

* 수천억 달러가 오고간 순환식 파이낸싱 스캔들 이후, AI업계나 인위적 과대광고에 관한 글을 볼 때 더이상 아무것도 놀랍지 않은 마음임