OpenAI 팀에게 공정함을 기하기 위해 맥락을 살펴보면, 상황이 그리 악의적이진 않음이라고 생각함
삭제된 트윗은 "GPT-5가 10개의 (이전엔 풀리지 않았던) Erdös 문제를 해결했고, 또 11개도 진전이 있었다, 수십 년간 풀리지 않은 문제"라고 되어 있음
만약 이 트윗이 단독으로 올라왔다면 오해의 소지가 있다고 생각하겠지만, 실제로는 인용 트윗이었음
인용 첫 번째 원문(https://x.com/MarkSellke/status/1979226538059931886)은 "이걸 더 밀어붙이고 있다"는 내용임
그리고 이 트윗이 인용한 두 번째 원문(https://x.com/SebastienBubeck/status/1977181716457701775)에서는 GPT-5가 문헌 검색에 탁월해서 "실제로 20년 전에 풀린 문제를 찾아내, 아직 열린 문제로 분류됐던 Erdos 문제 #339를 '해결'했다"는 내용임
이 스레드를 순서대로 읽으면
SebastienBubeck: "GPT-5는 문헌 검색에 매우 뛰어나서, 이미 해결된 해법을 찾아 아직 공개되어 있다고 생각되던 문제를 해결한 셈"
MarkSellke: "이제 10개 더 했다"
kevinweil: "우리가 해낸 멋진 결과를 보라!"
결국 인용 트윗 방식의 문제로, kevinweil이 여러 단계를 인용하다 보니 맨 처음 문제(실제로 이미 존재했던 해법을 찾은 것임)를 놓치고, 독자 입장에서는 오해할 수밖에 없는 구조임
이런 실수는 충분히 이해갈 수 있는 일로 보이고, 논란이 다소 과하다고 생각함
Weil이 게시했던 인용 트윗의 맥락을 충분히 고려하지 않았다는 점에 대해, 실제로 Weil 본인이 Sellke의 게시글을 오해했다고 직접 밝힌 사실이 있음(https://x.com/kevinweil/status/1979270343941591525에서 확인 가능)
Sellke는 "열린 문제로 분류된"이라고 했고, Weil은 "이전엔 풀리지 않은 문제"라고 언급한 게 다름
첫 번째 사람은 "20년 전에 이미 풀린 것을 알아내 문제를 '풀었다'"라고 했고, 두 번째 사람은 "이전엔 풀리지 않은 Erdös 문제 10개를 해결했다"고 했음
'이전엔 풀리지 않은'이라는 표현이 실제 맥락과는 다르지 않느냐는 생각임
혹시 내가 잘못 이해한 것이 아닌지 궁금해짐
DeepMind가 몇 달 전 “행렬 곱셈을 SOTA보다 더 잘한다”는 논문을 발표했을 때와 유사함
당시 Gemini가 새로운 최적화 해법을 찾았다고 했으나, 발표 직후 수학자들이 이미 30-40년 전 문헌에 있던 방법임을 바로 지적했고, 해당 내용이 Gemini의 학습 데이터에 있었을 가능성도 높았음
"GPT-5는 문헌 검색에 매우 뛰어남, 기존에 풀린 해법이 있는 문제를 '해결'"했다는 내용에 대해서
이건 생존자 편향이라고 생각함
실제로 GPT-5로 비교적 쉬운 검색에도 실패하는 경우가 많음
검색 결과가 맞는지 충분히 알거나, 직접 검증 과정이 필요함
주사위를 1000번 던지고 매번 더블 식스를 자랑하는 포스팅과 다를 게 없다는 느낌임
그걸로 내가 최고의 주사위 던지는 사람이라고 할 수 없는 것과 유사함
erdosproblems.com을 운영하는 수학자 Thomas Bloom이 바로 반박했던 내용을 언급
"해결되지 않은 문제(unsolved)"가 아니라, "내가 답을 모르는 것(open)"이라는 의미임을 강조했음
수학자가 '오픈'을 이렇게 정의하는 건 이상함이라는 생각임
내가 모르는 교재 문제를 '오픈 퀘스천'이라고 부르지 않는 것과 같음
"GPT-5가 문헌 리뷰 보조 도구로서 유용하다"는 주장에 반박
실제로는 굉장히 그럴듯하지만 가짜같은 결과물만 만든다는 생각임
그 결과에 만족하는 사람은 인생이 나보다 훨씬 쉬울 듯
난 엔지니어링 수학 논문 등 자료를 찾아 수 시간 도서관 뒤진 뒤, 마지막 방법으로 챗봇에게 희망을 걸게 됨
하지만 결국 결과가 이상해서 한참을 다시 검증하고, "이게 진짜 가능할 리가 없지"라는 실망만 남게 됨
이런 경험을 나만 겪는 건 아니라는 점도 느꼈음
내가 문헌 조사 심층 검색을 자주 해보면, GPT는 약 50% 확률로 근거 없는(환각) 소스를 만들어냄
상위 수준 리뷰에서는 약 5% 정도 환각이 발생함
진짜 출처 50% 중 절반은 이미 익숙한 논문이고, 나머지 절반은 생소한 논문임
정말 좋은 점은, 기존에 찾기 어려운 논문을 종종 발견할 수 있다는 것임(Google Scholar 등으로 못 찾는 것 포함해서)
특히, 다른 분야에서 나온 관련 연구나, 잘 인용되지 않은 초록 논문 등 매우 다양한 소스를 만날 수 있음
전체 결과 중 75%가 쓸모 없거나 환각이어도, 나머지 25%가 너무 큰 가치를 주기 때문에 실제로 매우 유용함
'아예 유용하지 않다'고 단정하는 건 과장인 듯함
GPT는 50만 단어도 몇 분만에 검색해서, 요약과 상세 답, 각 주장마다 근거도 함께 제공해 줄 수 있음
물론 요약을 무조건 신뢰하면 안 되고, 중요한 정보는 반드시 출처를 눌러 검증해야 함
그래도 여전히 매우 뛰어난 검색 도구이자 생산성 부스터임
이름이 생각 안 나지만, 이런 원리가 있음
사람들이 아는 주제에 대한 신문 기사를 보면 허점이 다 보이고, "이게 어떻게 기사로 나왔냐"라는 생각이 들지만
모르는 주제 기사는 그냥 무비판적으로 믿게 되는 것처럼
ChatGPT에 대해서도 비슷한 맹신이 생기는 것 같다는 느낌임
사실 이런 GPT-5 등 챗봇을 검색/문헌 리뷰 용도로 무리하게 쓰려 하지 말고, 정말 강력한 의미 기반(semantic) 검색엔진을 활용하는 것이 더 나았을 수 있다는 생각이 듦
챗봇에게 요약이나 답을 맡길 때는 언제나 환각이 따라오게 됨
반면 LLM 임베딩 기반 문서 검색이라면 결과 자체가 환각일 위험이 전혀 없고, 기존 Google/Bing 등도 못 찾는 논문 탐색에 더 좋은 방법일 수도 있을 것 같음
이미 그런 서비스가 있으면 나만 모르는 것일 수도 있으니, 그 점은 감안 필요함
DeepMind에서 실제로 AI를 활용한 암 치료에 돌파구를 보인 같은 주간에, OpenAI 이슈가 드러난 게 대조적으로 상당히 안좋은 인상임
예전 상사 말이 떠오름 "새로운 정책이 필요하게 만드는 사람이 되지 말자"
OpenAI가 앞으로 커뮤니케이션 정책을 바꿔야 할 것 같음
OpenAI 직원들이 자사 모델의 실제 역량을 꽤 잘 알 것 같지만, 설령 그렇지 않더라도 인터넷상의 모든 주장에선 항상 조심해야 맞는다고 생각함
이런 문화가 결국 지금의 AI 과대광고 환경을 만들었다고 봄
“누군가를 이해시키기 어려운 이유는, 그 사람의 급여가 ‘이해하지 않는 것’에 달려 있기 때문”이라는 유명한 말이 생각남
이번 사건에서 드러난 건, OpenAI가 미해결 수학 문제에 진지하게 투자하고 있지 않다는 슬픈 진실임
그건 논리적 비약이라고 생각함
OpenAI 같은 대형 조직은 다양한 연구 부문 팀이 여러 방향으로 실험 중일 것이 분명하다고 봄
OpenAI가 광고와 성인 컨텐츠로 사업 축을 옮긴 순간 ‘점프 더 샤크’를 했구나라는 생각이 들었음
시장은 아직 이 사실을 반영하지 못함
단일 직원이 잘못된 발표를 했다고 해서, 그걸로 전체를 쉽게 평가하진 않겠음
OpenAI 직원들이 이런 식(마케팅 용어로)으로 발표할 것을 요청 받는 게 이상하지 않음
이번이 처음이 아니라, 이미 이전에도 GPT-5가 무언가를 ‘풀었다’고 주장한 사례가 있음(https://x.com/SebastienBubeck/status/1970875019803910478 참고)
점점 GPT-5가 마이너한 미해결 수학 문제(보통 박사과정 학생이 하루 이틀만에 해결할 수 있는 수준)는 충분히 풀 수 있는 사례가 많아지고 있음
아직 임팩트가 제대로 받아들여지진 않은 단계임
Yann LeCun의 "Hoisted by their own GPTards"라는 표현이 인상적임
Yann이 똑똑하고 필드의 뿌리까지 통달한 건 맞지만, 요즘 부정적 흐름도 있고 공적 입장이 금방 틀린 사례도 많다고 느낌
이전에 젊은 연구자들과의 발표 자리에서 두 가지 강한 주장을 했었음
LLM은 수학 문제를 못 푼다: 소리만 근사할 뿐, 검증 가능한 문제에선 맥을 못 춘다고 했고
LLM은 계획(plan)을 짜지 못한다는 것
그런데 1년 만에 이제 AI가 도구 활용, IMO 수상, 에이전트 기반 계획 등 제대로 하게 되었음
또 다른 주장이, LLM은 대화가 길어질수록 오류가 누적되어 결국 말도 안되는 결과로 간다는 것인데, 최근 롱컨텍스트와 RL조합 등으로 사실상 이 역시 극복된 사례가 많음
아무리 천재라 해도 한 개인 의견은 다소 걸러 들을 필요가 있다고 생각함
혹시 내가 맥락을 놓친 건지, Yann이 'retard'를 변형한 어휘를 쓴 게 의외임
평소라면 그런 언어는 Elon Musk 같은 사람이 쓸 법한 느낌임
어떤 맥락이었는지 궁금함
수천억 달러가 오고간 순환식 파이낸싱 스캔들 이후, AI업계나 인위적 과대광고에 관한 글을 볼 때 더이상 아무것도 놀랍지 않은 마음임
Hacker News 의견
OpenAI 팀에게 공정함을 기하기 위해 맥락을 살펴보면, 상황이 그리 악의적이진 않음이라고 생각함
삭제된 트윗은 "GPT-5가 10개의 (이전엔 풀리지 않았던) Erdös 문제를 해결했고, 또 11개도 진전이 있었다, 수십 년간 풀리지 않은 문제"라고 되어 있음
만약 이 트윗이 단독으로 올라왔다면 오해의 소지가 있다고 생각하겠지만, 실제로는 인용 트윗이었음
인용 첫 번째 원문(https://x.com/MarkSellke/status/1979226538059931886)은 "이걸 더 밀어붙이고 있다"는 내용임
그리고 이 트윗이 인용한 두 번째 원문(https://x.com/SebastienBubeck/status/1977181716457701775)에서는 GPT-5가 문헌 검색에 탁월해서 "실제로 20년 전에 풀린 문제를 찾아내, 아직 열린 문제로 분류됐던 Erdos 문제 #339를 '해결'했다"는 내용임
이 스레드를 순서대로 읽으면
SebastienBubeck: "GPT-5는 문헌 검색에 매우 뛰어나서, 이미 해결된 해법을 찾아 아직 공개되어 있다고 생각되던 문제를 해결한 셈"
MarkSellke: "이제 10개 더 했다"
kevinweil: "우리가 해낸 멋진 결과를 보라!"
결국 인용 트윗 방식의 문제로, kevinweil이 여러 단계를 인용하다 보니 맨 처음 문제(실제로 이미 존재했던 해법을 찾은 것임)를 놓치고, 독자 입장에서는 오해할 수밖에 없는 구조임
이런 실수는 충분히 이해갈 수 있는 일로 보이고, 논란이 다소 과하다고 생각함
Weil이 게시했던 인용 트윗의 맥락을 충분히 고려하지 않았다는 점에 대해, 실제로 Weil 본인이 Sellke의 게시글을 오해했다고 직접 밝힌 사실이 있음(https://x.com/kevinweil/status/1979270343941591525에서 확인 가능)
Sellke는 "열린 문제로 분류된"이라고 했고, Weil은 "이전엔 풀리지 않은 문제"라고 언급한 게 다름
첫 번째 사람은 "20년 전에 이미 풀린 것을 알아내 문제를 '풀었다'"라고 했고, 두 번째 사람은 "이전엔 풀리지 않은 Erdös 문제 10개를 해결했다"고 했음
'이전엔 풀리지 않은'이라는 표현이 실제 맥락과는 다르지 않느냐는 생각임
혹시 내가 잘못 이해한 것이 아닌지 궁금해짐
DeepMind가 몇 달 전 “행렬 곱셈을 SOTA보다 더 잘한다”는 논문을 발표했을 때와 유사함
당시 Gemini가 새로운 최적화 해법을 찾았다고 했으나, 발표 직후 수학자들이 이미 30-40년 전 문헌에 있던 방법임을 바로 지적했고, 해당 내용이 Gemini의 학습 데이터에 있었을 가능성도 높았음
"GPT-5는 문헌 검색에 매우 뛰어남, 기존에 풀린 해법이 있는 문제를 '해결'"했다는 내용에 대해서
이건 생존자 편향이라고 생각함
실제로 GPT-5로 비교적 쉬운 검색에도 실패하는 경우가 많음
검색 결과가 맞는지 충분히 알거나, 직접 검증 과정이 필요함
주사위를 1000번 던지고 매번 더블 식스를 자랑하는 포스팅과 다를 게 없다는 느낌임
그걸로 내가 최고의 주사위 던지는 사람이라고 할 수 없는 것과 유사함
erdosproblems.com을 운영하는 수학자 Thomas Bloom이 바로 반박했던 내용을 언급
"해결되지 않은 문제(unsolved)"가 아니라, "내가 답을 모르는 것(open)"이라는 의미임을 강조했음
수학자가 '오픈'을 이렇게 정의하는 건 이상함이라는 생각임
내가 모르는 교재 문제를 '오픈 퀘스천'이라고 부르지 않는 것과 같음
"GPT-5가 문헌 리뷰 보조 도구로서 유용하다"는 주장에 반박
실제로는 굉장히 그럴듯하지만 가짜같은 결과물만 만든다는 생각임
그 결과에 만족하는 사람은 인생이 나보다 훨씬 쉬울 듯
난 엔지니어링 수학 논문 등 자료를 찾아 수 시간 도서관 뒤진 뒤, 마지막 방법으로 챗봇에게 희망을 걸게 됨
하지만 결국 결과가 이상해서 한참을 다시 검증하고, "이게 진짜 가능할 리가 없지"라는 실망만 남게 됨
이런 경험을 나만 겪는 건 아니라는 점도 느꼈음
내가 문헌 조사 심층 검색을 자주 해보면, GPT는 약 50% 확률로 근거 없는(환각) 소스를 만들어냄
상위 수준 리뷰에서는 약 5% 정도 환각이 발생함
진짜 출처 50% 중 절반은 이미 익숙한 논문이고, 나머지 절반은 생소한 논문임
정말 좋은 점은, 기존에 찾기 어려운 논문을 종종 발견할 수 있다는 것임(Google Scholar 등으로 못 찾는 것 포함해서)
특히, 다른 분야에서 나온 관련 연구나, 잘 인용되지 않은 초록 논문 등 매우 다양한 소스를 만날 수 있음
전체 결과 중 75%가 쓸모 없거나 환각이어도, 나머지 25%가 너무 큰 가치를 주기 때문에 실제로 매우 유용함
'아예 유용하지 않다'고 단정하는 건 과장인 듯함
GPT는 50만 단어도 몇 분만에 검색해서, 요약과 상세 답, 각 주장마다 근거도 함께 제공해 줄 수 있음
물론 요약을 무조건 신뢰하면 안 되고, 중요한 정보는 반드시 출처를 눌러 검증해야 함
그래도 여전히 매우 뛰어난 검색 도구이자 생산성 부스터임
이름이 생각 안 나지만, 이런 원리가 있음
사람들이 아는 주제에 대한 신문 기사를 보면 허점이 다 보이고, "이게 어떻게 기사로 나왔냐"라는 생각이 들지만
모르는 주제 기사는 그냥 무비판적으로 믿게 되는 것처럼
ChatGPT에 대해서도 비슷한 맹신이 생기는 것 같다는 느낌임
사실 이런 GPT-5 등 챗봇을 검색/문헌 리뷰 용도로 무리하게 쓰려 하지 말고, 정말 강력한 의미 기반(semantic) 검색엔진을 활용하는 것이 더 나았을 수 있다는 생각이 듦
챗봇에게 요약이나 답을 맡길 때는 언제나 환각이 따라오게 됨
반면 LLM 임베딩 기반 문서 검색이라면 결과 자체가 환각일 위험이 전혀 없고, 기존 Google/Bing 등도 못 찾는 논문 탐색에 더 좋은 방법일 수도 있을 것 같음
이미 그런 서비스가 있으면 나만 모르는 것일 수도 있으니, 그 점은 감안 필요함
혹시 문헌 리뷰 툴에 관심 있다면, 내가 대학원 친구들을 위해 만든 공개 문헌 정리 플랫폼을 소개함
계층적 혼합 모델을 활용해 대량 검색과 인용 네트워크를 정리해주는 방식임
활용 예시: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
DeepMind에서 실제로 AI를 활용한 암 치료에 돌파구를 보인 같은 주간에, OpenAI 이슈가 드러난 게 대조적으로 상당히 안좋은 인상임
예전 상사 말이 떠오름 "새로운 정책이 필요하게 만드는 사람이 되지 말자"
OpenAI가 앞으로 커뮤니케이션 정책을 바꿔야 할 것 같음
OpenAI 직원들이 자사 모델의 실제 역량을 꽤 잘 알 것 같지만, 설령 그렇지 않더라도 인터넷상의 모든 주장에선 항상 조심해야 맞는다고 생각함
이런 문화가 결국 지금의 AI 과대광고 환경을 만들었다고 봄
이번 사건에서 드러난 건, OpenAI가 미해결 수학 문제에 진지하게 투자하고 있지 않다는 슬픈 진실임
그건 논리적 비약이라고 생각함
OpenAI 같은 대형 조직은 다양한 연구 부문 팀이 여러 방향으로 실험 중일 것이 분명하다고 봄
OpenAI가 광고와 성인 컨텐츠로 사업 축을 옮긴 순간 ‘점프 더 샤크’를 했구나라는 생각이 들었음
시장은 아직 이 사실을 반영하지 못함
단일 직원이 잘못된 발표를 했다고 해서, 그걸로 전체를 쉽게 평가하진 않겠음
OpenAI 직원들이 이런 식(마케팅 용어로)으로 발표할 것을 요청 받는 게 이상하지 않음
이번이 처음이 아니라, 이미 이전에도 GPT-5가 무언가를 ‘풀었다’고 주장한 사례가 있음(https://x.com/SebastienBubeck/status/1970875019803910478 참고)
점점 GPT-5가 마이너한 미해결 수학 문제(보통 박사과정 학생이 하루 이틀만에 해결할 수 있는 수준)는 충분히 풀 수 있는 사례가 많아지고 있음
아직 임팩트가 제대로 받아들여지진 않은 단계임
"자기가 만드는 것을 자기 자신이 지나치게 신뢰하지 말라"라는 조언이 그리워짐
[두 번 오줌 마시기]
Yann LeCun의 "Hoisted by their own GPTards"라는 표현이 인상적임
Yann이 똑똑하고 필드의 뿌리까지 통달한 건 맞지만, 요즘 부정적 흐름도 있고 공적 입장이 금방 틀린 사례도 많다고 느낌
이전에 젊은 연구자들과의 발표 자리에서 두 가지 강한 주장을 했었음
그런데 1년 만에 이제 AI가 도구 활용, IMO 수상, 에이전트 기반 계획 등 제대로 하게 되었음
또 다른 주장이, LLM은 대화가 길어질수록 오류가 누적되어 결국 말도 안되는 결과로 간다는 것인데, 최근 롱컨텍스트와 RL조합 등으로 사실상 이 역시 극복된 사례가 많음
아무리 천재라 해도 한 개인 의견은 다소 걸러 들을 필요가 있다고 생각함
혹시 내가 맥락을 놓친 건지, Yann이 'retard'를 변형한 어휘를 쓴 게 의외임
평소라면 그런 언어는 Elon Musk 같은 사람이 쓸 법한 느낌임
어떤 맥락이었는지 궁금함
수천억 달러가 오고간 순환식 파이낸싱 스캔들 이후, AI업계나 인위적 과대광고에 관한 글을 볼 때 더이상 아무것도 놀랍지 않은 마음임