OpenAI 연구원이 GPT-5의 수학적 돌파구를 발표

▲

GN⁺ 6달전 | parent | ★ favorite | on: OpenAI 연구원이 GPT-5의 수학적 돌파구를 발표했으나 실제로는 일어나지 않음(the-decoder.com)

Hacker News 의견

OpenAI 팀에게 공정함을 기하기 위해 맥락을 살펴보면, 상황이 그리 악의적이진 않음이라고 생각함
삭제된 트윗은 "GPT-5가 10개의 (이전엔 풀리지 않았던) Erdös 문제를 해결했고, 또 11개도 진전이 있었다, 수십 년간 풀리지 않은 문제"라고 되어 있음
만약 이 트윗이 단독으로 올라왔다면 오해의 소지가 있다고 생각하겠지만, 실제로는 인용 트윗이었음
인용 첫 번째 원문(https://x.com/MarkSellke/status/1979226538059931886)은 "이걸 더 밀어붙이고 있다"는 내용임
그리고 이 트윗이 인용한 두 번째 원문(https://x.com/SebastienBubeck/status/1977181716457701775)에서는 GPT-5가 문헌 검색에 탁월해서 "실제로 20년 전에 풀린 문제를 찾아내, 아직 열린 문제로 분류됐던 Erdos 문제 #339를 '해결'했다"는 내용임
이 스레드를 순서대로 읽으면
- SebastienBubeck: "GPT-5는 문헌 검색에 매우 뛰어나서, 이미 해결된 해법을 찾아 아직 공개되어 있다고 생각되던 문제를 해결한 셈"
- MarkSellke: "이제 10개 더 했다"
- kevinweil: "우리가 해낸 멋진 결과를 보라!"
  결국 인용 트윗 방식의 문제로, kevinweil이 여러 단계를 인용하다 보니 맨 처음 문제(실제로 이미 존재했던 해법을 찾은 것임)를 놓치고, 독자 입장에서는 오해할 수밖에 없는 구조임
  이런 실수는 충분히 이해갈 수 있는 일로 보이고, 논란이 다소 과하다고 생각함
- Weil이 게시했던 인용 트윗의 맥락을 충분히 고려하지 않았다는 점에 대해, 실제로 Weil 본인이 Sellke의 게시글을 오해했다고 직접 밝힌 사실이 있음(https://x.com/kevinweil/status/1979270343941591525에서 확인 가능)
  Sellke는 "열린 문제로 분류된"이라고 했고, Weil은 "이전엔 풀리지 않은 문제"라고 언급한 게 다름
- 첫 번째 사람은 "20년 전에 이미 풀린 것을 알아내 문제를 '풀었다'"라고 했고, 두 번째 사람은 "이전엔 풀리지 않은 Erdös 문제 10개를 해결했다"고 했음
  '이전엔 풀리지 않은'이라는 표현이 실제 맥락과는 다르지 않느냐는 생각임
- 혹시 내가 잘못 이해한 것이 아닌지 궁금해짐
  DeepMind가 몇 달 전 “행렬 곱셈을 SOTA보다 더 잘한다”는 논문을 발표했을 때와 유사함
  당시 Gemini가 새로운 최적화 해법을 찾았다고 했으나, 발표 직후 수학자들이 이미 30-40년 전 문헌에 있던 방법임을 바로 지적했고, 해당 내용이 Gemini의 학습 데이터에 있었을 가능성도 높았음
- "GPT-5는 문헌 검색에 매우 뛰어남, 기존에 풀린 해법이 있는 문제를 '해결'"했다는 내용에 대해서
  이건 생존자 편향이라고 생각함
  실제로 GPT-5로 비교적 쉬운 검색에도 실패하는 경우가 많음
  검색 결과가 맞는지 충분히 알거나, 직접 검증 과정이 필요함
  주사위를 1000번 던지고 매번 더블 식스를 자랑하는 포스팅과 다를 게 없다는 느낌임
  그걸로 내가 최고의 주사위 던지는 사람이라고 할 수 없는 것과 유사함
erdosproblems.com을 운영하는 수학자 Thomas Bloom이 바로 반박했던 내용을 언급
"해결되지 않은 문제(unsolved)"가 아니라, "내가 답을 모르는 것(open)"이라는 의미임을 강조했음
수학자가 '오픈'을 이렇게 정의하는 건 이상함이라는 생각임
내가 모르는 교재 문제를 '오픈 퀘스천'이라고 부르지 않는 것과 같음
"GPT-5가 문헌 리뷰 보조 도구로서 유용하다"는 주장에 반박
실제로는 굉장히 그럴듯하지만 가짜같은 결과물만 만든다는 생각임
그 결과에 만족하는 사람은 인생이 나보다 훨씬 쉬울 듯
난 엔지니어링 수학 논문 등 자료를 찾아 수 시간 도서관 뒤진 뒤, 마지막 방법으로 챗봇에게 희망을 걸게 됨
하지만 결국 결과가 이상해서 한참을 다시 검증하고, "이게 진짜 가능할 리가 없지"라는 실망만 남게 됨
이런 경험을 나만 겪는 건 아니라는 점도 느꼈음
- 내가 문헌 조사 심층 검색을 자주 해보면, GPT는 약 50% 확률로 근거 없는(환각) 소스를 만들어냄
  상위 수준 리뷰에서는 약 5% 정도 환각이 발생함
  진짜 출처 50% 중 절반은 이미 익숙한 논문이고, 나머지 절반은 생소한 논문임
  정말 좋은 점은, 기존에 찾기 어려운 논문을 종종 발견할 수 있다는 것임(Google Scholar 등으로 못 찾는 것 포함해서)
  특히, 다른 분야에서 나온 관련 연구나, 잘 인용되지 않은 초록 논문 등 매우 다양한 소스를 만날 수 있음
  전체 결과 중 75%가 쓸모 없거나 환각이어도, 나머지 25%가 너무 큰 가치를 주기 때문에 실제로 매우 유용함
- '아예 유용하지 않다'고 단정하는 건 과장인 듯함
  GPT는 50만 단어도 몇 분만에 검색해서, 요약과 상세 답, 각 주장마다 근거도 함께 제공해 줄 수 있음
  물론 요약을 무조건 신뢰하면 안 되고, 중요한 정보는 반드시 출처를 눌러 검증해야 함
  그래도 여전히 매우 뛰어난 검색 도구이자 생산성 부스터임
- 이름이 생각 안 나지만, 이런 원리가 있음
  사람들이 아는 주제에 대한 신문 기사를 보면 허점이 다 보이고, "이게 어떻게 기사로 나왔냐"라는 생각이 들지만
  모르는 주제 기사는 그냥 무비판적으로 믿게 되는 것처럼
  ChatGPT에 대해서도 비슷한 맹신이 생기는 것 같다는 느낌임
- 사실 이런 GPT-5 등 챗봇을 검색/문헌 리뷰 용도로 무리하게 쓰려 하지 말고, 정말 강력한 의미 기반(semantic) 검색엔진을 활용하는 것이 더 나았을 수 있다는 생각이 듦
  챗봇에게 요약이나 답을 맡길 때는 언제나 환각이 따라오게 됨
  반면 LLM 임베딩 기반 문서 검색이라면 결과 자체가 환각일 위험이 전혀 없고, 기존 Google/Bing 등도 못 찾는 논문 탐색에 더 좋은 방법일 수도 있을 것 같음
  이미 그런 서비스가 있으면 나만 모르는 것일 수도 있으니, 그 점은 감안 필요함
- 혹시 문헌 리뷰 툴에 관심 있다면, 내가 대학원 친구들을 위해 만든 공개 문헌 정리 플랫폼을 소개함
  계층적 혼합 모델을 활용해 대량 검색과 인용 네트워크를 정리해주는 방식임
  활용 예시: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
DeepMind에서 실제로 AI를 활용한 암 치료에 돌파구를 보인 같은 주간에, OpenAI 이슈가 드러난 게 대조적으로 상당히 안좋은 인상임
예전 상사 말이 떠오름 "새로운 정책이 필요하게 만드는 사람이 되지 말자"
OpenAI가 앞으로 커뮤니케이션 정책을 바꿔야 할 것 같음
OpenAI 직원들이 자사 모델의 실제 역량을 꽤 잘 알 것 같지만, 설령 그렇지 않더라도 인터넷상의 모든 주장에선 항상 조심해야 맞는다고 생각함
이런 문화가 결국 지금의 AI 과대광고 환경을 만들었다고 봄
- “누군가를 이해시키기 어려운 이유는, 그 사람의 급여가 ‘이해하지 않는 것’에 달려 있기 때문”이라는 유명한 말이 생각남
이번 사건에서 드러난 건, OpenAI가 미해결 수학 문제에 진지하게 투자하고 있지 않다는 슬픈 진실임
- 그건 논리적 비약이라고 생각함
  OpenAI 같은 대형 조직은 다양한 연구 부문 팀이 여러 방향으로 실험 중일 것이 분명하다고 봄
- OpenAI가 광고와 성인 컨텐츠로 사업 축을 옮긴 순간 ‘점프 더 샤크’를 했구나라는 생각이 들었음
  시장은 아직 이 사실을 반영하지 못함
- 단일 직원이 잘못된 발표를 했다고 해서, 그걸로 전체를 쉽게 평가하진 않겠음
OpenAI 직원들이 이런 식(마케팅 용어로)으로 발표할 것을 요청 받는 게 이상하지 않음
이번이 처음이 아니라, 이미 이전에도 GPT-5가 무언가를 ‘풀었다’고 주장한 사례가 있음(https://x.com/SebastienBubeck/status/1970875019803910478 참고)
점점 GPT-5가 마이너한 미해결 수학 문제(보통 박사과정 학생이 하루 이틀만에 해결할 수 있는 수준)는 충분히 풀 수 있는 사례가 많아지고 있음
아직 임팩트가 제대로 받아들여지진 않은 단계임
"자기가 만드는 것을 자기 자신이 지나치게 신뢰하지 말라"라는 조언이 그리워짐
- 이거 비누임, 이거! https://www.youtube.com/watch?v=RvGE-xhroy0
  [두 번 오줌 마시기]
Yann LeCun의 "Hoisted by their own GPTards"라는 표현이 인상적임
- Yann이 똑똑하고 필드의 뿌리까지 통달한 건 맞지만, 요즘 부정적 흐름도 있고 공적 입장이 금방 틀린 사례도 많다고 느낌
  이전에 젊은 연구자들과의 발표 자리에서 두 가지 강한 주장을 했었음
  1. LLM은 수학 문제를 못 푼다: 소리만 근사할 뿐, 검증 가능한 문제에선 맥을 못 춘다고 했고
  2. LLM은 계획(plan)을 짜지 못한다는 것
    그런데 1년 만에 이제 AI가 도구 활용, IMO 수상, 에이전트 기반 계획 등 제대로 하게 되었음
    또 다른 주장이, LLM은 대화가 길어질수록 오류가 누적되어 결국 말도 안되는 결과로 간다는 것인데, 최근 롱컨텍스트와 RL조합 등으로 사실상 이 역시 극복된 사례가 많음
    아무리 천재라 해도 한 개인 의견은 다소 걸러 들을 필요가 있다고 생각함
- 혹시 내가 맥락을 놓친 건지, Yann이 'retard'를 변형한 어휘를 쓴 게 의외임
  평소라면 그런 언어는 Elon Musk 같은 사람이 쓸 법한 느낌임
  어떤 맥락이었는지 궁금함
수천억 달러가 오고간 순환식 파이낸싱 스캔들 이후, AI업계나 인위적 과대광고에 관한 글을 볼 때 더이상 아무것도 놀랍지 않은 마음임