2P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • Tim Gowers는 ChatGPT 5.5 Pro로 약 1시간 만에 조합론의 박사과정 수준 연구 결과를 얻었고, 자신의 수학적 입력은 사실상 없었다고 봄
  • ChatGPT 5.5 Pro는 Mel Nathanson의 덧셈적 정수론 문제에서 주어진 합집합 크기를 갖는 집합의 직경에 대해 최선일 수밖에 없는 이차 상계 구성을 17분 5초 만에 제시함
  • 이어서 제한 합집합 문제도 같은 방식으로 해결했고, Isaac Rajagopal의 기존 지수적 상계를 다항식 의존성으로 개선하는 논증까지 만들어 Rajagopal에게 거의 확실히 맞는 결과로 보였음
  • 핵심 아이디어는 Rajagopal의 구성에서 기하급수열 구성요소를 h-dissociated 집합 기반 구성으로 바꿔, 필요한 합집합 크기 패턴을 다항식 크기 구간 안에서 재현하는 것이었음
  • AI가 만든 결과는 출판 가능할 수준으로 보이지만 저널 게재나 arXiv 등록보다는 인간 수학자가 정확성을 인증하는 별도 저장소가 필요할 수 있으며, 초심 연구자의 훈련 기준도 LLM과 협업해 LLM 혼자 못 하는 일을 증명하는 방향으로 이동할 수 있음

LLM이 바꾸는 조합론 문제 풀이

  • 대형 언어 모델은 이미 연구 수준 문제를 풀 수 있는 단계로 보이며, Thomas Bloom의 Erdős 문제 사이트에 올라온 여러 문제도 해결한 것으로 알려져 있음
  • 초기 LLM 성과는 문헌의 기존 답을 찾아내거나 알려진 결과에서 쉽게 따라 나오는 결론을 내는 경우가 많았지만, 이제는 사람이 놓친 쉬운 논증을 LLM이 찾아낼 가능성이 커짐
  • 인간 수학에서도 기존 지식과 증명 기법을 조합하는 일이 상당 부분을 차지하므로, LLM이 “기존 지식만 조합한다”는 위안은 제한적임
  • 조합론에서는 새 조합적 매개변수를 도입한 논문들이 자연스럽게 여러 문제를 낳고, 예전에는 초심 연구자에게 좋은 공개 문제 공급원이었지만 이제는 LLM이 풀지 못할 만큼 어려운지가 새 기준이 됨

Nathanson 문제와 첫 번째 성과

  • Gowers는 Mel Nathanson의 논문 Diversity, Equity and Inclusion for Problems in Additive Number Theory에 나온 문제들을 ChatGPT 5.5 Pro에 시도하게 했음
  • Nathanson은 나중에 유행하게 된 문제와 정리에 일찍 관심을 보였고, 그 결과 시의적절하고 영향력 있는 교과서들을 쓴 인물로 소개됨
  • 핵심 대상은 정수 집합의 합집합(sumset), 여러 번 더한 합집합, 주어진 원소 수에서 가능한 합집합 크기들임
  • 원소 수가 주어졌을 때 가능한 합집합 크기가 최소와 최대 사이의 모든 값을 항상 갖지는 않으며, 완전한 기술도 아직 없음
  • Nathanson은 주어진 원소 수와 합집합 크기를 갖는 집합을 만들 때 필요한 직경(diameter) 의 상계를 제시했고, 이 상계를 개선할 수 있는지 물었음
  • ChatGPT 5.5 Pro는 17분 5초 동안 생각한 뒤, 최선일 수밖에 없는 이차 상계를 주는 구성을 제시함
  • Gowers가 일반적인 수학 프리프린트 스타일의 LaTeX 파일로 다시 써 달라고 하자, ChatGPT는 2분 23초 뒤 해당 형태를 제공했고 Gowers는 논증이 맞는지 확인하는 데 시간을 썼음

Sidon 집합과 제한 합집합으로의 확장

  • Nathanson의 논증과 ChatGPT의 논증은 모두 주어진 크기의 집합과 주어진 크기의 합집합을 만들기 위해 Sidon 집합등차수열을 함께 쓰는 아이디어에 기반함
  • Sidon 집합은 여기서 합집합 크기가 최대인 집합이라는 단순화된 의미로 쓰임
  • 세부 조정을 위해 등차수열 근처에 추가 점 하나를 더할 수 있고, 여러 매개변수를 조절하면 원하는 크기의 집합들을 얻을 수 있음
  • Nathanson은 이 논문의 Theorem 5에서 귀납적 논증을 제시했지만, 풀어 쓰면 사실상 2의 거듭제곱으로 된 Sidon 집합을 쓰는 구조로 보임
  • ChatGPT의 개선은 더 효율적인 Sidon 집합을 쓴 데서 나왔고, 이차 직경을 갖는 Sidon 집합을 찾을 수 있다는 사실은 잘 알려져 있음
  • Gowers는 이어서 합집합 크기 대신 제한 합집합(restricted sumset) 의 크기를 보는 밀접한 문제도 시도시켰고, ChatGPT는 별 어려움 없이 같은 방식의 결과를 냄
  • 두 결과를 중복 없이 하나의 노트로 정리한 문서는 여기에 공개됨

일반 차수 문제와 Rajagopal 논문 개선

  • Gowers는 더 일반적인 경우에 대해 ChatGPT가 무엇을 할 수 있는지도 물었음
  • 원래는 훨씬 덜 낙관적이었는데, 앞선 증명이 Erdős와 Szemerédi의 결과, 즉 만들어야 할 크기들을 정확히 알고 있다는 사실에 본질적으로 의존했기 때문임
  • Nathanson 논문에는 MIT 학생 Isaac Rajagopal의 논문이 나오며, Rajagopal은 고정된 차수마다 지수적 의존성을 증명했음
  • Rajagopal에게 실제 난점은 “가능한 크기 집합을 모른다”는 데 있지 않았음
    • 그의 논증은 충분히 큰 경우에 대한 완전한 기술을 제공함
    • 고정된 차수에 대해 다항식 의존성을 보이려면 충분히 큰 경우만 가정해도 됨
    • 실제 난점은 주어진 합집합 크기를 갖는 집합을 만드는 구성이 훨씬 복잡하고, 차수가 커질수록 다항식의 차수도 커져 더 많은 매개변수가 필요하다는 데 있음
  • ChatGPT의 과제는 문제를 처음부터 푸는 것이 아니라 Rajagopal의 논증을 조이는 것이었음
  • 진행 과정은 다음과 같음
    • 16분 41초 뒤, 기존 상계를 지수 함수에서 임의의 양의 상수에 대해 더 작은 지수 형태로 개선하는 논증을 제시함
    • 프리프린트 형태로 작성하는 데 추가로 47분 39초가 걸림
    • Gowers는 이를 Nathanson에게 보냈고, Nathanson은 Rajagopal에게 전달했으며, Rajagopal에게는 맞아 보였음
    • ChatGPT와 Rajagopal 모두 다항식 상계로 더 밀어붙이려면 무엇이 필요할지 일부 추측했고, Gowers는 ChatGPT에 이를 시도하게 함
    • 13분 33초 뒤 ChatGPT는 그런 논증이 존재할 가능성에 낙관적이지만 확인해야 할 기술적 명제가 몇 개 있다고 답함
    • 확인을 요청하자 9분 12초 뒤 검사를 마쳤고, 다시 프리프린트 형태 작성을 요청함
    • 31분 40초 뒤 프리프린트가 준비됐고, 문서는 여기에 공개됨
    • Rajagopal은 이를 거의 확실히 맞는 것으로 봤고, 이는 줄 단위만이 아니라 아이디어 수준에서도 그렇다는 뜻으로 받아들여짐

AI가 만든 수학 결과를 어디에 둘 것인가

  • 사람이 만든 결과였다면 출판 가능했을 수준이므로, 이를 AI slop이라고 부르기는 부적절해 보임
  • 반면 저널에 싣는 일은 별 의미가 없어 보임
    • 결과는 무료로 공개될 수 있음
    • 누구도 “공로”를 필요로 하지 않음
    • 다만 ChatGPT가 구축할 수 있는 틀을 만든 Rajagopal에게는 많은 공로가 있음
  • arXiv가 AI 작성 콘텐츠를 받지 않는 정책을 가진 것으로 이해되며, 이는 합리적이라고 봄
  • AI가 만든 결과를 둘 별도 저장소가 필요할 수 있음
    • 인간 수학자가 정확성을 인증한 결과만 포함하는 조정 절차가 바람직할 수 있음
    • 더 좋게는 증명 보조기로 형식화된 결과일 수 있음
    • 인간이 쓴 논문에서 제기된 질문에 답하는 결과인지도 기준이 될 수 있음
  • 조정 절차가 막대한 작업량을 만들면 곤란하고, 그 작업을 다시 AI가 맡는 방향에는 명백한 위험이 있음
  • 당분간 해당 결과는 공개 링크로 접근 가능하며, LLM의 문헌 검색 능력이 좋아졌기 때문에 Nathanson의 문제가 해결됐는지 찾으려는 사람에게 발견 가능할 수도 있음

Isaac Rajagopal의 평가와 기술적 배경

  • ChatGPT가 기여한 핵심

    • ChatGPT는 몇 번의 프롬프트만으로 특정 상계를 지수적 의존성에서 다항식 의존성으로 개선함
    • 첫 개선은 Rajagopal의 작업을 비교적 일상적으로 수정한 것이었지만, 다항식 개선은 상당히 인상적이었음
    • ChatGPT가 낸 아이디어는 독창적이고 영리했으며, Rajagopal이 1~2주 고민 끝에 떠올렸다면 자랑스러워했을 법한 종류였음
    • ChatGPT는 Rajagopal 자신의 증명과 비슷한 방법을 사용해 1시간도 안 돼 아이디어를 찾고 증명함
  • 문제의 배경

    • 이 상계 문제는 Rajagopal이 Duluth REU(Research Experience for Undergrads) 프로그램에서 다뤘던 문제와 밀접함
    • 핵심 대상은 가능한 여러 번 합집합 크기의 집합과, 이를 특정 원소 수의 정수 집합으로 모두 실현하기 위한 최소 범위임
    • Rajagopal은 지난여름 충분히 큰 경우 가능한 값들의 집합을 명시적으로 특성화했음
    • 불가능하다고 배제하지 못한 모든 크기를 실현하는 집합들을 구성했고, 이에 따라 해당 상계는 그 구성을 최적화해 얻을 수 있음
  • 기하급수적 크기 구성의 대체

    • Rajagopal의 원래 구성은 분석이 쉬운 여러 작은 구성요소 집합을 결합하는 방식임
    • 일부 구성요소는 여러 값의 매개변수에 대한 기하급수열 형태였고, 그 원소는 매개변수에 대해 지수적으로 커졌음
    • Rajagopal은 Tim을 통해 ChatGPT에, 이 기하급수열과 비슷한 합집합 크기를 가지면서 원소 크기는 다항식으로 제한되는 집합이 있는지 물었음
    • ChatGPT는 “다항식 구간 안에 기하급수열의 절반을 밀어 넣은” 것처럼 행동하는 집합들을 구성함
    • 이는 직관에 반하는 구성으로 보임

Bₕ 집합, dissociated 집합, ChatGPT의 구성 아이디어

  • Bₕ 집합의 역할

    • 주어진 차수에 대해, 한쪽 합이 다른쪽 합의 재배열인 자명한 해를 제외하고는 합 관계가 없는 집합을 Bₕ 집합으로 부름
    • 크기가 정해진 Bₕ 집합에서는 반복을 허용해 원소들을 고르는 방식과 여러 번 합집합의 원소가 정확히 대응함
    • “stars and bars”로 계산하면, 이는 같은 크기의 집합 중 가능한 최대 여러 번 합집합 크기임
    • Sidon 집합은 이 관점에서 B₂ 집합임
  • 기하급수열이 재현하던 성질

    • 특정 기하급수열 집합은 Bₕ 집합이지만, 더 높은 차수의 B 집합은 아님
    • 방해가 되는 관계들은 일정한 형태의 합 관계로 나타남
    • 한 집합에서는 합집합 크기가 매개변수의 선형 함수가 되고, 다른 집합에서는 이차 함수가 됨
    • ChatGPT는 이 네 가지 성질을 만족하면서도 원소가 모두 매개변수에 대해 다항식 크기인 새 집합들을 찾음
  • h-dissociated 집합 사용

    • ChatGPT의 구성은 h-dissociated 집합을 사용함
    • h-dissociated 집합은 제한된 차수 이하의 합 관계에서 자명한 해만 허용하는 집합임
    • 크기가 대략 매개변수와 같고, 직경이 다항식인 h-dissociated 집합을 만들 수 있음
    • 이런 구성은 유한체를 사용하는 Singer(1938)와 Bose–Chowla(1963)의 구성으로 거슬러 올라가며, Appendix 1에서 설명됨
  • 관계 수를 절반만 담는 직관

    • ChatGPT가 만든 두 집합은 기하급수열 대응물과 비교해 특정 합 관계를 절반 정도만 포함함
    • 동시에 h-dissociated 성질 덕분에 다른 낮은 차수 관계는 거의 없음
    • 그 결과 다항식 구간 안에 있으면서도 필요한 합집합 크기 패턴을 재현함
    • Rajagopal에게 h-dissociated 집합으로 차수 이하 관계를 통제하는 ChatGPT의 아이디어는 매우 교묘하고, 완전히 독창적으로 보였음

ChatGPT 증명과 Rajagopal 증명의 대응

  • ChatGPT의 증명은 Rajagopal의 원래 증명에서 기하급수열 구성요소를 ChatGPT의 새 구성요소로 바꾼 형태와 매우 비슷함
  • 최종 구성은 여러 차수 값에 대해 새 집합들을 결합하고, 여기에 등차수열과 한 점의 합집합으로 된 또 다른 집합을 결합함
  • 직관적으로 새 집합들은 큰 합집합을 만들고, 등차수열은 작은 합집합을 만들기 때문에, 이를 결합하면 중간 크기의 합집합들을 모두 얻을 수 있을 것처럼 보임
  • 실제 증명은 상당히 복잡하며, Rajagopal의 논문 Section 4와 ChatGPT 프리프린트 전체를 차지함
  • 비교를 위해 해당 양의 하한은 적어도 특정 차수의 거듭제곱 수준임을 쉽게 볼 수 있지만, 실제 값은 알려져 있지 않음
  • Rajagopal은 Tim이 ChatGPT 5.5 Pro에 넣은 문제가 우연히 자신의 arXiv 논문으로 이어진 점에 놀랐다고 밝힘

수학 연구와 박사과정 훈련에 대한 의미

  • ChatGPT가 2시간 안에 찾은 결과는 조합론 박사논문의 충분히 합리적인 한 장에 해당하는 수준으로 평가됨
  • Isaac의 아이디어에 크게 기대고 있어 놀라운 결과는 아니지만, 그 아이디어의 비자명한 확장이었음
  • 박사과정 학생이 같은 확장을 찾으려면 Rajagopal의 논문을 소화하고, 최적이 아닐 수 있는 지점을 찾고, 사용된 여러 대수적 기법에 익숙해지는 데 상당한 시간이 필요했을 것임
  • 초심 박사과정 학생에게 비교적 부드러운 공개 문제를 주는 방식의 연구 훈련은 더 어려워질 수 있음
  • LLM이 “부드러운 문제”를 풀 수 있다면, 수학에 기여하기 위한 하한은 “아직 아무도 증명하지 않았고 누군가는 흥미롭다고 여기는 결과”가 아니라 “LLM이 증명하지 못하는 결과” 쪽으로 이동함
  • 초심자도 LLM을 사용할 수 있으므로, 실제 과제는 LLM이 혼자 하지 못하는 일을 LLM과 협업해 증명하는 것일 수 있음
  • Gowers는 최근 LLM과 여러 협업을 했고, 아직 판도를 바꾸는 아이디어까지는 아니어도 유용한 기여를 얻었다고 봄

분야별 차이와 향후 변화

  • 이러한 변화가 다른 수학 분야에도 얼마나 일반화되는지는 확실하지 않음
  • 조합론은 문제 중심적인 경향이 강함
    • 질문에서 출발해 거꾸로 추론하거나, 앞으로 추론하더라도 그 질문을 강하게 의식함
  • 다른 분야에서는 아이디어들의 범위에서 출발해 어디로 이어지는지 보는 전방향 추론이 더 중요할 수 있음
  • 그런 분야에서는 흥미로운 관찰과 흥미롭지 않은 관찰을 가려내는 능력이 필요하고, LLM이 여기에 얼마나 잘할지는 분명하지 않음
  • 현재 LLM에 대한 평가는 몇 달 안에 낡을 가능성이 높을 정도로 발전 속도가 빠름
  • 수학 연구 방식, 특히 신규 연구자를 입문시키는 방식은 크게 교란될 가능성이 높음
  • 다음 학년에 박사과정을 시작하는 사람은 빨라도 2029년에 마치게 되며, 그때쯤 수학 연구의 의미는 지금과 알아볼 수 없을 만큼 달라졌을 수 있음

수학을 하는 이유의 변화

  • 수학 연구를 계속 진로로 삼는 것이 의미 있는지 묻는 이메일이 종종 온다고 밝힘
  • 수학 문제와 씨름하는 일에는 여전히 큰 가치가 있지만, 특정 정리나 정의에 자신의 이름이 영원히 연결되는 기쁨의 시대는 끝에 가까울 수 있음
  • 수학을 하는 목적이 일종의 불멸성이라면, 그것이 더 오래 가능하지 않을 수 있음을 이해해야 함
  • 사고실험으로, 수학자가 LLM과 긴 대화를 나누며 유용한 안내 역할을 했지만 기술적 작업과 핵심 아이디어를 LLM이 모두 수행해 큰 문제를 풀었다면, 이를 그 수학자의 중대한 업적으로 볼지는 의문임
  • 이미 답이 알려진 문제를 푸는 것도 만족스러울 수 있지만, 인생의 몇 년을 쓸 충분한 이유로는 부족함
  • 더 나은 이유는 어려운 문제를 풀면서 자신의 전문 분야에서 문제 해결 과정 자체에 대한 통찰을 얻는 것임
  • 어려운 문제를 직접 풀어 본 사람은 AI의 도움을 받아 문제를 푸는 데도 더 뛰어날 가능성이 큼
    • 좋은 코더가 그렇지 않은 사람보다 바이브 코딩을 더 잘하는 것과 비슷함
    • 기본 산술을 잘 이해한 사람이 계산기를 더 잘 쓰고, 특히 답이 이상할 때 더 잘 알아차리는 것과 비슷함
  • 수학은 전이 가능성이 높은 기술이며, 이는 연구 수준의 수학에도 적용됨
  • 수학 연구를 통해 이전 세대와 같은 보상을 얻지는 못할 수 있지만, 앞으로 올 세계에 매우 잘 대비하게 될 가능성이 있음

부록의 기술적 내용

  • 부록 1: h-dissociated 집합 구성

    • 목표는 직경이 대략 다항식 수준인 h-dissociated 집합을 만드는 것임
    • 이 구성은 Bose–Chowla(1963)의 구성에 대한 아주 작은 변형이며, Rajagopal은 이 논문에서 배웠다고 밝힘
    • ChatGPT 프리프린트의 Lemma 3.1은 moment curve를 사용하는 다른, 덜 효율적인 구성을 사용함
    • 구성은 소수, 유한체, 유한체 확장의 생성원, 각 원소를 특정 거듭제곱 표현과 대응시키는 방식을 사용함
    • 제한된 차수 이하의 덧셈 관계를 생성원의 거듭제곱 관계로 바꿔 볼 수 있음
    • 확장 차수와 생성원 성질 때문에 낮은 차수의 비영 다항식을 만족하지 않으므로, 양쪽 다항식이 동일해야 함
    • 따라서 해당 덧셈 관계는 자명한 관계뿐이고, 집합은 h-dissociated가 됨
    • 필요하면 몇 개 원소를 제거해 원하는 크기로 줄일 수 있음
  • 부록 2: ChatGPT 구성의 세부 구조

    • 고정 상수들을 선택하고, ChatGPT가 만든 두 집합을 사용함
    • 원하는 크기를 달성하는 집합 구성은 네 가지 유형의 구성요소를 결합함
      • 두 매개변수를 선택하는 한 유형
      • 각 차수 값마다 두 매개변수를 선택하는 두 가지 유형
      • 전체 원소 수가 맞도록 하는 집합
    • 이 구성이 복잡한 이유 중 하나는 충분히 많은 서로 다른 집합을 만들어야 하기 때문임
    • 이를 위해 한 영역의 매개변수들과 다른 영역의 매개변수들을 함께 변화시킴
    • 매개변수 중 하나를 제거하고 나머지를 그대로 두면, 필요한 수만큼 많은 집합을 만들 수 없게 됨
    • 차수가 2인 Nathanson의 구성은 Sidon 집합, 등차수열, 추가 값 하나를 결합하고, 등차수열의 크기와 추가 값을 일정 범위에서 바꿔 필요한 집합들을 만드는 더 단순한 구조임
    • 부록 1의 구성으로 각 차수마다 다항식 직경을 갖는 h-dissociated 집합을 얻을 수 있음
    • 여러 구성요소를 결합할 때, 기저 벡터를 가진 격자 형태의 구조를 사용함
    • 이 구성은 Rajagopal의 Lemma 4.9와 유사하게 생성함수 곱셈 항등식을 보장함
    • ChatGPT 프리프린트의 표준 Lemma 2.3에 따라, 해당 구성은 일정 차수의 Freiman 동형을 통해 정수 구간 부분집합으로 옮길 수 있음
    • 충분히 큰 경우에 대해 전체 구성이 작동함
  • 부록 3: Rajagopal 논문과 ChatGPT 프리프린트 대응

    • Rajagopal 논문 Section 4.2는 더 단순한 구성을 사용해 특정 값들을 달성하는 집합을 만듦
    • 이 집합들은 다항식 크기의 원소만 갖는 구간의 부분집합이며, 이 사실은 ChatGPT 프리프린트 Section 5에서 관찰됨
    • Rajagopal 논문 Section 4.3은 여러 구성요소를 결합하는 핵심 구성을 수행하며, ChatGPT 프리프린트 Sections 2, 3, 4, 6에 대응함
    • Rajagopal 논문 Section 4.3.1은 움직이는 요소가 많은 해당 부분의 개요를 제공함
    • Rajagopal 논문 Section 4.3.2는 구성요소 결합 방식을 설명하고, Rajagopal은 이를 disjoint union이라고 부름
    • 생성함수를 장부 정리 도구로 도입해 집합의 합집합 크기를 추적하며, 이는 ChatGPT 프리프린트 Section 2와 Section 4에 대응함
    • Rajagopal 논문 Section 4.3.3은 각 구성요소 집합의 생성함수를 계산하며, Lemma 4.15와 Lemma 4.17을 포함함
    • 이는 ChatGPT 프리프린트 Section 3과 Section 6.1에 대응하고, ChatGPT 프리프린트에서는 한 생성함수가 Lemma 3.3에서, 다른 생성함수가 Lemma 3.4에서 계산됨
    • 생성함수를 계산한 뒤 나머지 증명은 Rajagopal 논문과 ChatGPT 프리프린트에서 거의 동일함
    • Rajagopal 논문 Section 4.3.4는 구성한 집합들을 변화시킬 때 합집합 크기 값들이 가능한 모든 값을 취함을 보임
    • 핵심은 가능한 값들의 집합이 하나의 구간을 이루며, 특정 기준값보다 작은 수와 같은 수를 모두 포함한다는 것임
Hacker News 의견들
  • 5.5 Pro를 잠깐 써본 경험과 맞아떨어짐. 처음으로 지루하지만 명확한 문제를 제대로 풀도록 몰아갈 수 있는 LLM이라는 느낌이 들었음
    여전히 실수가 많고 아주 빡빡하게 안내해야 하지만, 다른 모델과 달리 자기 추론을 따라가며 스스로 수정하는 능력이 꽤 좋음
    단점은 비용임. 토큰을 미친 듯이 쓰고 토큰 단가도 비싸며, 큰 문제를 높은 정확도로 풀게 하려고 하위 에이전트 흐름을 쓰면 더 비싸짐
    대규모 문제에서는 문맥 제한 때문에 훨씬 느려지기도 함. 각 부분마다 문맥을 다시 찾아야 하고, 정확도를 위해 다음 작은 부분으로 넘어가기 전에 문맥을 지우거나 더 많은 에이전트를 띄워야 함
    수학 증명처럼 문제와 증명 이해에 필요한 추가 문맥이 작고 “중요한” 문제라면 괜찮을 수 있지만, 큰 코드베이스의 코드 정확성 확인이나 미묘한 가정 검증에는 분명한 한계가 있음
    그래서 5.5 Pro를 무제한으로 쓸 수 있는 운 좋은 사람이 아니라면, 이런 모델의 인상적인 능력이 프로그래머의 일상에 스며드는 데는 시간이 좀 걸릴 것 같음

  • 긴 글이고 기술적인 수학 부분과 철학적 부분이 섞여 있는데, 특히 인상적인 대목은 박사 초년생 훈련이 더 어려워졌다는 점임
    예전에는 비교적 순한 연구 문제를 주며 시작하게 할 수 있었지만, LLM이 그런 “순한 문제”를 풀 수 있다면 더 이상 그 선택지가 없음
    수학에 기여하는 하한선이 “아직 아무도 증명하지 않았고 흥미로운 것”이 아니라 “LLM이 증명하지 못하는 것”이 됨
    다만 훈련은 여전히 기초에서 시작해야 함. 모두가 작은 정수 덧셈부터 배우고, 계산기는 오래전부터 그걸 실수 없이 해왔음
    글의 다른 부분처럼 어려운 문제를 직접 풀어야 문제 해결 과정 자체에 대한 통찰이 생기고, 이미 어려운 문제를 풀어본 사람이 AI를 더 잘 활용할 가능성이 큼
    코딩은 사람들이 돈을 벌기 위해 쓸 물건을 만드는 일이므로 AI로 더 빨리 납품하고 계속 고용될 수 있지만, 수학에서도 같은 식으로 볼 수 있는지는 잘 모르겠음
    LLM이 주요 아이디어와 기술 작업을 다 하고 수학자는 유용하게 안내만 했다면, 그것을 수학자의 큰 업적으로 볼지는 의문임

    • 어려운 문제를 직접 풀면 다른 문제를 더 잘 풀게 되는 것뿐 아니라, 그 문제 자체를 훨씬 더 깊이 이해하게 됨
      기업에서도 사람들이 LLM에 일을 맡기면 결과가 항상 나쁘지는 않고 때로는 받아들일 만하지만, 그건 그 사람의 작업이 아님
      그래서 작성자는 남들보다 그 일을 더 잘 알거나 이해하지 못하고, 소유하지도 설명하지도 못함. 말 그대로 통과 지점일 뿐이라 가치가 사라짐
    • 오히려 그것도 큰 업적으로 봐야 할지도 모름
    • 두 핵심을 약간 놓친 것 같음. 기초부터 배워야 하는 건 맞지만, 어느 시점, 예컨대 박사를 시작할 때는 기초 학습이 아니라 연구를 해야 함
      LLM이 “쉬운 연구”를 풀어버리면 그 과정이 더 어려워짐
      어린 사자가 다른 어린 사자와 싸우고 놀며 나중의 사냥을 배우는데, 갑자기 TikTok이 생겨 더 이상 놀지 않는다면 첫 사냥은 훨씬 어려워질 것임
      AI로 더 빨리 납품해 돈을 벌 수 있다는 것도 맞지만, 좋은 코더가 되는 문제와는 다름. 좋은 코더가 되지 못하면 계속 나쁜 바이브 코더로 남게 됨
    • 정말 그게 중요한가? 그리고 철학적으로 이전의 컴퓨터 보조 증명과 그렇게 다른가?
  • Baez의 흥미로운 대목은 생각과 깊은 아이디어의 가치가 어디서 오는가라는 질문임
    그 가치가 주로 희소성, 즉 어떤 아이디어를 갖기 어렵다는 사실에서 온다면 아이디어 제조가 자동화될 때 가치가 급락할 수 있음
    하지만 가치가 아이디어의 효용, 즉 그 아이디어가 가져오는 이익에서 온다면 이야기가 달라짐. 더 좋은 아이디어를 더 많이 만드는 것이 오히려 더 나을 수 있음
    수학자들은 희소성 경제에서 풍요의 경제로의 전환에 적응해야 할지도 모름
    https://gowers.wordpress.com/2026/05/08/a-recent-experience-...

    • 수학자에는 세 부류가 있음. 첫째는 순수한 문제 해결자이고 Tao가 대표적이며, 이들의 화폐는 흥미로운 문제와 그 해법임
      둘째는 순수한 이론 구축자이고 Conway가 대표적이며, 정리보다 이론과 아이디어에 관심이 많고 수학의 영토를 넓히려 함
      셋째는 응용수학자이고, 수학을 목적을 위한 수단으로 보며 수학 밖의 문제를 수학으로 풀고 싶어 함
      첫 번째 부류인 문제 해결자가 AI에 가장 즉각적으로 위협받는 듯함. 다만 아직 AI는 새 추측을 찾기보다 문제 풀이에 더 강함
      두 번째 부류인 이론 구축자는 더 먼 미래에 위협받음. 지금까지 AI가 새롭고 흥미로운 수학적 아이디어를 내는 능력은 제한적이고, 그런 걸 어떻게 훈련해야 하는지도 아무도 모름
      세 번째 부류는 AI에서 가장 많은 이익을 얻을 수 있음. AI가 수학적 질문에 답해주면 수학에 쓰는 시간을 줄이고, 수학으로 풀고 싶었던 외부 문제에 더 집중할 수 있음
    • 새로운 것을 밀어붙이는 사람은 항상 같은 온라인 평론가들인 것 같음. 뛰어난 학자라 해도 마찬가지임
      반면 Wiles와 Perelman은 온라인을 멀리하고 진짜 문제를 풀었음
  • 물리학 교수로서 Gemini를 논문 점검에 자주 쓰는데, 강력한 도구임
    며칠 동안 찾지 못했던 복소 수식의 허수 단위 누락 같은 사무적 오류를 찾아냈고, 놓쳤던 개념과 아이디어 사이의 연결도 자주 짚어줌
    하지만 개념적 오류도 자주 내며, 해당 주제를 잘 알기 때문에 알아챌 수 있음. 예컨대 3차원 Clifford 대수에서 이중벡터의 지수와 의사스칼라의 지수를 반복해서 혼동함
    ChatGPT 5.5 Pro가 출판 가능한 논문을 만들 수 있다는 건 알겠지만, 지금까지 Gemini를 본 바로는 LLM을 논문과 책을 순식간에 읽는 매우 효율적인 학생으로 보되 여전히 많은 지도가 필요한 대상으로 보는 편이 나음

    • 위 경험은 GPT-5.5 Pro와 더 비슷한 Deep Think 모드가 아니라 “일반” Gemini 3.1 Pro를 쓴 것으로 보임. 일반 3.1 Pro는 한 단계 낮고 실수가 잦은 편임
      게다가 3~4년 전만 해도 고등학교 수학도 안정적으로 못 풀던 LLM의 발전이 곧 멈출 이유는 없음
      CritPt 벤치마크는 미발표 연구 수준 물리 문제로 구성되어 있으니 추적해볼 만함
      https://critpt.com/
      최전선 모델도 아직 해결과는 거리가 멀지만 발전은 빠름. o3 high는 1.5년 전 1.4%, GPT 5.4 xhigh는 23.4%, GPT-5.5 xhigh는 27.1%, GPT-5.5 Pro xhigh는 30.6%임
      https://artificialanalysis.ai/evaluations/critpt
    • “멘토링”이라는 표현은 의인화이고, 무의식적으로 모델이 배울 것처럼 생각하게 만듦. 실제로는 배우지 않으며, LLM처럼 똑똑해 보이는 무언가가 배우지 않는다는 점을 계속 기억하는 건 인간에게 꽤 어려움
      나도 같은 실수를 자꾸 함
      사용자 지정 프롬프트와 지시로 LLM의 기억을 수동 관리해야 하는 것도 짜증나는 이유 중 하나임
      장기 기억 기능은 아직 제대로 써보지 않았지만, 프롬프트보다 더 신뢰하기 어려울 것 같음. 1~2년이면 너무 많은 것이 바뀌어서 그 “기억”도 여러 번 다시 만들어야 할 가능성이 큼
    • LLM은 출력에 대한 기대치가 있을 때 가장 잘 작동함. 대체로 정답의 형태를 알고 있으면 줄 단위가 아니라 감각적으로 평가할 수 있음
      기대치가 없으면 모든 것을 액면 그대로 받아들여야 하고, 그 순간 기계의 자비에 맡겨짐
    • 물리학 교수는 아니지만, 시니어 엔지니어 영역에서 도구를 쓰는 방식과 비슷함
      기본기를 가져와서 성급한 에이전트를 sanity check하고, 다른 사람들도 같은 일을 할 수 있도록 그 기본기를 심어주려 함
      결국 이 방식이 전체가 작동하는 유일한 길처럼 느껴짐. 언젠가 회사들이 감당 가능한 더 작은 로컬 모델로 옮겨가는 경우를 제외하면 그렇음
    • LLM은 장밋빛이고 그럴듯하게 작업을 제시하면서 계속하면 더 해주겠다고 말함
      맞을 확률과 절벽에서 뛰어내리게 할 확률이 반반인데, 여행 자체는 항상 아름다운 5성급처럼 포장됨
      오류를 찾아 LLM에 말하면 대부분 더 나빠짐. LLM은 기쁘게 해주려 하면서 사과하고 방향을 바꾸기 때문임
      그런 상황이 되면 보통 세션을 저장하거나 취소하고 처음부터 다시 시작하거나, 과감하게 방향을 틀게 됨
      내게 Gemini는 가장 예측하기 어려운 LLM이고, 전체적으로는 GPT가 가장 잘 맞음
      최근 Gemini는 같은 질문에 두 가지 다른 답을 줬음. 일부러 새 채팅을 열고 같은 프롬프트를 붙여 넣어 본 테스트였음
      코딩 영역에서는 추론 기능이 큰 도움이 되지 않음. LLM의 설명은 매우 고수준이고 형식적으로는 맞아 보이기 때문임
      LLM 때문에 오히려 구글링을 더 하게 됨. 결국 버튼을 누르기 전에 내가 먼저 검증해야 할 무언가를 누군가 만들어내는 셈이고, 그 반짝이는 버튼이 작동할지 지옥으로 안내할지는 잠시 뒤에야 알 수 있음
  • 수학자가 LLM과 긴 대화를 하면서 유용하게 안내했지만 기술 작업과 주요 아이디어를 LLM이 다 했다면, 그걸 수학자의 큰 업적으로 볼지는 문화적 선택
    현재 수학 문화에서는 낯설게 느껴지는 게 자연스럽지만, 이미 다른 분야나 많은 개인은 인간에게 큰 업적이 있었다고 볼 수 있음
    인간-AI 협업이 최고의 결과를 내는 동안에는 인간의 의미 있는 기여가 있고, 깊은 전문가이자 숙련된 LLM 조련자는 큰 기여를 할 수 있음
    진짜 변화는 순수 AI가 인간과 인간-AI 협업을 모두 이길 때 옴

    • 자동차 경주에서 성능의 대부분은 차에서 나오지만 우리는 운전자를 칭찬함. 두 차의 성능이 비슷할 때 운전자의 뛰어남이나 실수가 차이를 만듦. 승마도 비슷함
      수학에서도 인간이 LLM을 올바른 길로 이끌고, 특정 문제나 다른 문제로 향하게 할 수 있으니 어느 정도 칭찬받을 만함
      차를 만든 팀, 말을 돌본 사람, AI를 만든 팀이 더 큰 칭찬을 받을 수도 있지만, 우리는 보통 가장 눈에 띄는 한 사람에게 더 관심을 둠
    • 이 논점은 AI 이미지와 코미디를 떠올리게 함
      이미지가 사람들을 웃긴다면, 프롬프트를 넣은 사람이 제작 작업 대부분의 공을 가져가지는 못하겠지만, 초기 아이디어와 여러 초안 중 특정 결과를 고른 취향에 대해서는 공을 받을 수 있음
      수학자가 LLM이 “한” 놀라운 결과를 얻었다면, 프롬프트를 주고 안내한 점에 대해 어느 정도 공을 받을 수 있다고 봄
      다만 첫 번째 사람은 예술가가 아니라 코미디언이라고 부를 수 있을지 몰라도, 그 수학자는 여전히 수학자인지 아니면 다른 무언가인지가 문제임
    • 누군가 프롬프트를 찾았거나 대화를 자동화해서 열린 수학 문제를 전부 훑었더라도, 유용한 결과를 만들고 아무에게도 해를 끼치지 않았다면 가치 있는 인간 활동이고 보상받아야 한다고 봄
      다른 수학자들에게 주는 보상만큼 주면 됨. 물론 억만장자 수학자가 많을 테니 그 보상이 꽤 크겠지만
    • 수학자의 큰 업적은 아닐 수 있지만, 그래도 큰 결과
  • “수학을 하는 목적이 어떤 종류의 불멸성을 얻는 것이라면, 그게 더 이상 오래 가능하지 않을 수도 있다”는 문장이 조금 슬펐음

    • 어제 YouTube에서 영화 ‘21’(2008)을 무료로 봤음
      영화 도입부에는 MIT 캠퍼스를 누비는 학생들과 고등교육이 가져오는 약속과 지위가 가득함
      AI에 얼마나 많은 것이 넘어갈지를 깨닫자 비슷한 슬픔이 들었음
      [0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
    • 그 문장이 에세이에서 가장 흥미로웠음. 학계 수학 커리어를 바로 접었던 때가 떠올랐고, 19~20살 때는 내가 그 분야에서 세계적 수준이 될 수 없다고 생각했음. 실제로도 맞았음
      다음 생각은 “나는 무엇을 잘하지?”였고, 그 안에는 적어도 “무엇에서 세계적 수준이 될 수 있을까?” 혹은 “아주 잘할 수 있을까?”가 들어 있었음
      내가 어떤 결과를 찾아 이름 붙이고 나보다 오래 남게 해서 수학적 불멸성을 얻을 만큼 충분하다고 생각한 적은 없지만, 그랬다면 이런 나쁜 소식이 비슷한 충격을 줬을 수도 있음
      다만 경계에서는 전제에 동의하지 않음. 얼마나 많은 증명 보조기나 클러스터 컴퓨팅을 쓰든, 리만 가설을 증명하는 팀이나 사람은 유명해질 것임. 적어도 수학계에서는 유명해짐
    • 그렇게 실망할 일인지는 모르겠음. 위대한 수학자 대부분이 실제로 불멸성을 얻기 위해 했다고는 생각하지 않음
      아마 많은 이들은 수학→물리→공학으로 이어지는 간접적 실용 응용을 노렸거나, 그냥 수학의 아름다움과 지적 즐거움 때문에 했을 것임
      AI가 실용 응용까지 가져갈 수도 있지만, 나머지 측면은 여전히 누릴 수 있음
    • 모든 종류의 인간 성취에 대해 같은 말을 반복해보면 됨
  • 대학원생으로서 이 글은 슬펐음. 내 작업이 나 자신을 넘어, 이 우주적 경험에서 주어진 제한된 시간 너머로 말해줄 것이라고 믿어왔음
    그런 불멸성의 감각은 대학원에 뛰어들 때 기대했던 작고 무형의 보너스였는데, AI 때문에 스스로 덜 가치 있게 느껴짐

    • 훨씬 더 뒤를 지나온 사람으로서, 그런 생각은 내려놓는 편이 좋다고 조심스럽게 말하고 싶음. 뛰어나고 야심 있는 사람들이 그 생각 때문에 우울에 빠지는 걸 너무 많이 봤음
      그 일을 할 수 있기 때문에 그 일을 할 가치가 있는 것임. 사랑하기 때문에, 그리고 미스터리를 사랑하기 때문에 하길 바람
      그 일을 할 수 있는 매 순간을 즐기면 좋겠음. 만족을 주지 않는 일에 시달리는 사람들과 달리 이런 일을 할 수 있는 큰 행운에서 기쁨을 찾길 바람
      때로는 지루하지만, 때로는 그 자체로 믿을 수 없을 만큼 보람 있음
      다만 영원한 영광의 가능성을 위해 일하지는 말아야 함. 그런 것은 더 이상 존재하지 않음
    • 충분히 가치 있음. 대학원에서 기술을 갈고닦으면 오랫동안 어려운 문제와 씨름하지 않은 사람보다 이 AI들을 더 잘 지휘할 수 있게 됨
    • “지능을 다른 모든 인간적 자질보다 높게 평가한다면, 힘든 시간을 보내게 될 것이다.” - Ilya Sutskever, 2023
    • 이 현실에는 LLM이 스스로 알아낼 수 있는 것보다 훨씬 더 배울 것이 많음. 특히 진실, 윤리, 도덕에 관해서는 더 그렇고, 이 현실을 떠날 때 결국 중요한 것은 그것뿐임
      그보다 더 큰 도전은 없음
    • 용기는 이상한 과학적 돌파구보다 시간을 더 잘 초월한다고 느낌. 그런 돌파구는 대개 한 사람에게 귀속되지만, 뿌리는 이름 없는 “덜 중요한” 사람들에게서 온 경우가 많음
  • 동유럽의 이론컴퓨터과학 조교수로서, 수학계의 큰 이름들이 비싼 장시간 추론 모델에 쉽게 접근하는 것이 늘 조금 부러움
    현재 학술 예산으로 Pro를 내는 건 여기서는 현실 밖의 일임. 예산은 용도가 제한되어 있고 소프트웨어 결제는 들어맞는 항목이 거의 없음
    사실상 새 연구비를 신청하고, 그 규정이 큰 소프트웨어 지출을 허용하며, 반AI 심사자를 만나지 않기를 바라야 함. 그런 절차는 최소 1년 걸림
    엎친 데 덮친 격으로 Microsoft가 Copilot의 개인 및 학술 사용을 조이면서 최근 Claude Opus 접근도 막혔음
    ChatGPT 5.5 Plus는 새 연구 주제를 깊게 파고들기에는 충분하지 않아 보였고, 직접 해봤음

    • @NotOscarWilde 이메일을 남기면 연락하겠음. OAI에서 일하고 있고, 몇 달간 5.5 Pro를 써볼 수 있게 Pro 계정을 마련해줄 수 있음
    • 우리 대학에서는 최근 공동 AI 서비스가 도입되기 전까지 모두가 AI 구독료를 자기 돈으로 냈음
      그 서비스를 세팅하는 데 2년이 걸렸고 gpt-oss-120b만 제공해서, 여전히 모두가 다른 서비스를 씀
      그래도 어떤 관리자는 대학 웹사이트 곳곳에 “AI”라는 단어를 뿌릴 수 있고, “이미 AI가 있다”는 이유로 AI 구독 요청을 거절할 핑계가 생김
    • 가장 유리한 위치에 있는 사람들이 계속 보상을 거둬들이기 가장 좋은 위치에 있다는 전형적 사례임
      가난한 사람과 부자가 부츠를 사는 예가 있음. 가난한 사람의 부츠는 닳아서 계속 교체해야 하지만, 부자의 부츠는 더 좋은 품질이라 여러 해 감
      시간이 지나면 가난한 사람이 부츠에 더 많은 돈을 쓰게 됨
    • OpenRouter는 구독 없이 토큰 단위 과금만 가능하고, Opus 4.7과 GPT-5.5를 포함한 최전선 모델 대부분을 제공함
      아껴 쓰면 보통 꽤 저렴하게 나옴
    • ChatGPT 5.5 Pro 접근은 월 100달러로 가능한 것으로 아는데, 그 위치와 지역에서 감당하기 비현실적인 수준인지 궁금함
      대학이 내주지 않더라도 본인 목표를 위해 쓰고 싶을 것 같음
      비난하려는 게 아니라, 그 지역 연구자 대부분에게 완전히 닿을 수 없는 비용인지 궁금함
  • 약 10년 전 Seattle의 AMS-MAA 공동 회의에서 Tim Gowers가 강연하며, 100년 뒤에는 인간이 더 이상 연구 수학을 하지 않을 것이라고 예측하는 걸 봤음. 지금은 일정을 조정했을지 궁금함
    당시에는 MathOverflow처럼 작동하는 자연어 검색이 핵심적으로 빠진 도구라고 생각했음. 문제나 아이디어를 자신이 이해한 대로 설명하면, 자신의 경험이나 어휘 밖에 있는 관련 문헌을 찾아주는 방식임

    • Teichmüller도 독일이 2차 세계대전에서 이길 것이라 생각하고 동부전선에 자원했음
      뛰어난 수학자라고 해서 맞는 것은 아님. 사실 수학자들은 꽤 기이한 이론을 많이 갖고 있음
  • 올가을 고등교육에 들어가는 학생들의 압도적 다수는 연구를 한다 해도 4~5년 뒤에야 과학에 크게 기여할 수 있음. 박사 과정이 본격화되는 시점까지 보면 현실적으로 6~7년임
    5~7년 전의 모델 수준을 보면, 그때는 박사의 실존적 위협 같은 건 레이더에도 없었음. 지금 박사를 마치는 사람들이 이 도구를 진정으로 활용할 수 있는 첫 세대임
    이제 연구자가 되려는 학생들이 패배감을 느껴 그만두거나, AI 모델에 완전히 기대어 일을 시키면 문제가 생김
    박사 자리의 자금 지원도 마찬가지임. “연구자 양성”을 위한 지원에서 “결과 달성”을 위한 지원으로 옮겨가면, 박사생에게 쓰이던 돈이 컴퓨팅 자원으로 흘러갈 수 있음
    냉소적으로 보면, 어떤 연구자는 학생 몇 년을 훈련시키는 것보다 컴퓨팅에 돈을 써서 훨씬 더 많은 논문을 뽑아낼 수 있음
    흥미로운 시대지만 불확실성이 너무 큼. 지금 무엇을 할지 결정해야 하는 학생들이 안타깝게 느껴짐

    • 이런 일은 이미 일어나고 있고 더 빨라질 것임. 대학원 밖에서도 이미 학위를 살 수 있음
      특히 더 부드러운 분야에서는 박사 논문과 좋은 출판 이력을 지금도 살 수 있음
      학계가 아니라 산업계에 있다면 승진도 살 수 있음. 고용주가 모든 직원에게 AI 예산을 준다면, 승진할 때까지 조용히 자기 돈으로 그 예산을 두 배로 늘리고, 승진 후에는 멈춘 뒤 더 큰 월급을 누리면 됨
    • 박사과정생들은 이미 AI 모델을 써서 일을 시키고 있음. 내가 아는 박사 후보 대부분은 월 200달러짜리 Claude Max 플랜을 최대한 활용함
      이전에는 할 수 없던 연구를 할 수 있게 된 것이 보임
      AI 사용이 코드를 직접 짜는 능력을 어느 정도 약화시킨 것도 보이지만, scikit-learn이나 Pytorch로 머신러닝 모델을 짜는 것과 비슷하게 봄
      밑바닥 세부는 추상화되고 AI 없이는 많이 못 하겠지만, 그 연구는 실제로 그 사람 때문에 일어나는 것이며 AI만으로는 일어나지 않았을 것임
    • 지금까지 기관들이 박사과정생에게 돈을 펑펑 준 것도 아님
      나중에 붙은 예산 항목에 가까운 그 돈이, 비싸고 다른 절차를 위해 털어갈 만큼 매력적인 표적은 아님