# 대규모 수학적 탐구와 발견

> Clean Markdown view of GeekNews topic #24213. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24213](https://news.hada.io/topic?id=24213)
- GeekNews Markdown: [https://news.hada.io/topic/24213.md](https://news.hada.io/topic/24213.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-08T06:35:01+09:00
- Updated: 2025-11-08T06:35:01+09:00
- Original source: [terrytao.wordpress.com](https://terrytao.wordpress.com/2025/11/05/mathematical-exploration-and-discovery-at-scale/)
- Points: 4
- Comments: 1

## Topic Body

- **AlphaEvolve**는 LLM을 이용해 코드 자체를 진화시키는 **새로운 형태의 최적화 도구**로, 수학 문제 해결에 적용됨  
- 67개의 해석학·조합론·기하학 문제를 대상으로 실험한 결과, 기존 최적화 도구 수준의 성과와 함께 **규모 확장성**에서 강점을 보임  
- 도구의 **적응성**이 높아, 문제별 세부 지식 없이도 다양한 수학 문제에 적용 가능하며, 자체적으로 **이산화 매개변수**를 설정해 효율적 계산 수행  
- 생성된 코드가 **해석 가능성**을 제공해, 인간이 최적화 구조를 이해하거나 새로운 수학적 통찰을 얻는 데 도움을 줌  
- 일부 문제에서는 기존 결과를 재발견하거나 미세한 개선을 이루었으며, **수학 연구의 자동화와 검증 가능 탐구 확장** 가능성을 보여줌  

---

### AlphaEvolve와 연구 개요
- **Terence Tao**, **Bogdan Georgiev**, **Javier Gómez-Serrano**, **Adam Zsolt Wagner**는 Google DeepMind와 협력해 AlphaEvolve를 이용한 연구 논문을 arXiv에 공개  
  - 논문: “Mathematical exploration and discovery at scale”  
  - 관련 데이터와 프롬프트는 GitHub 저장소에 공개됨  
- AlphaEvolve는 **LLM 기반 코드 진화형 최적화 시스템**으로, 입력값 대신 **코드를 진화시켜 점수 함수를 극대화**함  
  - LLM이 생성한 코드가 실행되어 입력을 만들고, 그 결과를 평가함  
  - 코드 세대 간 성능 기반 교배·변형을 통해 진화  
  - “환각(hallucination)”은 성능이 낮으면 제거되지만, 일부는 다양성을 높여 **지역 극값 탈출**에 기여  
- 사용자는 **힌트나 관련 문헌 PDF**를 업로드해 성능을 향상시킬 수 있음  
- 유사한 도구로 **OpenEvolve**, **ShinkaEvolve**, **DeepEvolve** 등이 존재  

### 실험 범위와 주요 결과
- 67개의 수학 문제(해석학, 조합론, 기하학 포함)에 대해 실험 수행  
  - 기존 문헌보다 효율적인 **기하학적 패킹**이나 **변분 문제 함수 후보**를 찾음  
- **규모 확장성(scale)** 이 강점으로, 한 문제의 프롬프트와 검증 도구를 변형해 유사 문제에 재활용 가능  
- AlphaEvolve는 **적응성(adaptability)** 이 높아, 세부 하이퍼파라미터 조정 없이 다양한 문제에 적용 가능  
  - 예: 변분 문제에서 **이산화 매개변수**를 스스로 설정하도록 하여 효율적 결과 도출  
  - 예시: **Hausdorff–Young 부등식** 상수 최적화 실험  

### 해석 가능성과 구체적 사례
- AlphaEvolve의 출력 코드는 **인간이 읽고 분석 가능한 형태**로, 최적화 구조를 이해하는 데 유용  
  - 예: **Gagliardo–Nirenberg 부등식** 문제에서 정확한 **Talenti 함수**를 발견하고, 이를 샘플링하는 Python 코드 생성  
- 일부 경우에는 기존 최적화 서브루틴을 호출하거나 단순 탐색 방식을 사용하기도 함  

### 학습 데이터와 성능 차이
- 훈련 데이터에 포함된 문제의 경우, LLM이 **즉시 최적해(예: 가우시안)** 를 제시  
  - 문제를 변형해 가우시안 해법을 숨기면 다른 후보를 탐색함  
- 예: **산술 Kakeya 추측** 관련 실험에서 이산 가우시안 기반 후보를 제시해 기존 하한을 약간 개선  
  - 이 결과를 바탕으로 Tao는 별도의 논문에서 **이론적 비대칭 거동**을 증명  

### 검증기 설계와 취약점
- AlphaEvolve는 **검증 코드의 허점을 이용한 “익스플로잇”** 을 자주 발견  
  - 예: 거리 오차 허용치가 큰 기하 문제에서 점들을 같은 위치에 배치해 높은 점수 획득  
- 이를 방지하기 위해 **정확 산술** 또는 **보수적 점수 함수**를 사용해야 함  
  - 예: **Moving Sofa 문제**에서 보수적 스코어링을 적용해 “Gerver sofa”를 재발견하고, 3D 변형 문제에서 새로운 설계 발견  

### 난제 및 추측 문제 실험
- **Sidorenko**, **Sendov**, **Crouzeix**, **Ovals** 등 주요 미해결 추측에 대해 실험  
  - 기존 문헌의 최적 후보를 재발견했으나, 반례는 찾지 못함  
  - 이는 추측이 참이거나, AlphaEvolve가 기존 연구자들이 시도했던 “자명한” 구성만 탐색했기 때문일 수 있음  
- 이러한 도구는 **부정적 결과의 체계적 기록**에 유용하며, 새로운 추측 제안 시 **자동 검증 도구**로 활용 가능성 있음  
- 일부 변형 문제에서는 **새로운 두 매개변수 확장형 추측**을 발견  

### 분야별 성능 차이
- **해석적 수론** 문제(예: 소수정리 근사용 체 가중 설계)에서는 구조 활용에 어려움  
  - 반면, **유한체 Kakeya·Nikodym 문제** 등 **대수적 구조**가 있는 문제에서는 우수한 성과  
- Kakeya 문제에서 2차 잔여 기반 최적 구성을 재발견하고, 3차원에서는 약간의 개선 달성  
  - Gemini의 **Deep Think**로 비공식 증명을 찾고, **AlphaProof**로 Lean 형식 증명으로 변환  
  - 4차원 개선안은 기존 **Bukh–Chao 논문**과 동일 구조로 판명  
- Nikodym 문제에서는 새로운 3차원 구성을 발견했으나, 무작위 구성보다 열등함을 확인  
  - 이를 바탕으로 **혼합형 구성**을 개발해 성능 향상, 후속 논문 예정  

### 종합적 의의
- AlphaEvolve는 **대규모 수학 탐구 자동화**의 가능성을 보여줌  
  - 기존 최적화 도구 대비 **확장성·적응성·해석 가능성**에서 우수  
  - 일부 문제에서 **새로운 구성과 증명**으로 이어짐  
- 향후 수학 연구에서 **AI 기반 탐색과 인간 검증의 협업 구조**가 정착될 가능성 있음

## Comments



### Comment 46059

- Author: neo
- Created: 2025-11-08T06:35:02+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45833162) 
- LLM 팬들이 매번 **‘혁신’** 이라며 과장하는 건 피곤하지만, 이번 사례는 LLM의 현재 능력을 연구에 잘 활용한 예시임  
  수학 문제를 **코딩 에이전트 문제**로 변환해 해결했으며, 이런 접근은 다른 분야에도 확장 가능해 보임  
  AlphaEvolve 시스템도 기존 에이전트보다 개선된 점이 있을 듯함. 매년 AI가 꾸준히 발전하고 있지만, 찬성파나 회의파 모두 과대평가는 도움이 안 됨
  - 이런 불평도 반복되는 것 같음. 마음에 안 들면 안 보면 되는 것 아님?  
    사람마다 **하이프 사이클**을 즐기는 시점이 다름. 어떤 사람에겐 이미 지겨워도, 다른 사람에겐 LLM과 수학의 연결이 새로울 수 있음. 이런 영감이 장기적으로는 유익할 수 있음
  - LLM 회의론자들도 매번 팬들을 공격하며 ‘AI 버블’이라는 자기만족적 세계를 유지하려 함  
    그래도 이번 연구는 LLM을 잘 활용한 사례임. 요즘엔 뉴스거리도 안 되는 실용적 사용이 많음. 팬이 있다고 해서 매번 그들을 비판할 필요는 없음

- 이번 연구가 LLM이 **‘본 적 있는 문제만 푼다’** 는 주장을 반박해줄 것 같음  
  LLM 개발자들의 말을 들어보면, 학습 이후의 RL 과정이 단순한 **Markov chain**을 넘어선 **세계 모델(world model)** 을 형성하게 함  
  다음 단계는 [Genie 3](https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/) 같은 모델 위에 유사한 능력을 쌓는 것임
  - 블로그에 인용된 논문의 [2번 섹션](https://arxiv.org/abs/2511.02864)을 보면, LLM은 진화적 루프에서 **변이 함수(mutation function)** 로 쓰임  
    LLM이 핵심 도구이긴 하지만, 이번 성과의 공은 **진화적 최적화(evolutionary optimization)** 에 더 있음
  - 이 연구가 그런 주장을 반박한다고 보긴 어려움. 여전히 전문가의 **세심한 개입**이 필요하고, 비 LLM적 사고가 필수적임
  - AlphaEvolve는 LLM 자체가 아니라, LLM을 코드 생성에 활용하는 **진화형 코딩 에이전트**임  
    [DeepMind 블로그](https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/)에 따르면, AlphaGo·AlphaFold 같은 ‘Alpha’ 시리즈의 연장선임  
    이 접근은 **Chollet의 ARC-AGI 테스트**에서도 잘 작동할 듯함. 다만 Tao가 ‘extremize’라는 표현을 쓴 건 수학적 용어로는 다소 낯설게 느껴짐
  - [이 글](https://www.argmin.net/p/lore-laundering-machines)을 보면, 논문 속 해법들도 결국 기존 문헌에 있었던 사례일 가능성이 있음
  - “LLM은 본 적 있는 문제만 푼다”는 주장은 지나치게 단순함  
    이번 연구는 빠른 검증과 **나쁜 해의 가지치기**가 가능한 문제에 적합함. 반면 인간의 소프트웨어 개발은 설계 편향, 느린 진화, 테스트 어려움 등으로 이런 접근이 힘듦

- Daniel Litt이 지적했듯, 이번은 단순히 **‘계산 자원(Compute)’** 을 많이 투입한 첫 사례일 뿐임  
  AlphaEvolve의 일부 부등식은 인간과 **Moore’s Law**로도 쉽게 개선됨  
  관련 논문은 [여기](https://arxiv.org/abs/2506.16750)

- 수학적 배경이 부족한 사람을 위해 요약을 부탁하는 댓글이 있었음
  - 전문가가 아니지만 요약하자면, Terence Tao는 세계적 수학자이고, AlphaEvolve는 Google의 **LLM 기반 최적화 도구**임  
    LLM은 Python 코드 변이를 담당하며, 잘못된 시도는 자동으로 가지치기됨  
    67개의 문제를 테스트했고, 전문가 수준의 결과를 자주 냈음. **확장성·견고성·해석 용이성**이 장점임  
    다만 훈련 데이터에 포함된 문제는 빠르게 수렴했고, 문제 정의가 허술하면 그 틈을 ‘악용’하기도 함  
    일부 수학 분야(예: 해석적 수론)에서는 성능이 떨어졌음. 그래도 인간이 참고할 만한 아이디어를 제시함
  - 요약하자면, LLM을 인간의 수학적 사고 루프에 넣었더니 **연구 수준의 수학**을 수행했음  
    모든 분야에 고르게 강하진 않았지만, **Ramanujan**이나 **Erdős**처럼 계산 중심의 문제 해결에 특화된 접근이었음

- 소파 문제(sofa problem)가 해결된 줄 몰랐음. 관련 논문은 [여기](https://arxiv.org/abs/2411.19826)
  - 당시 토론은 [이 스레드](https://news.ycombinator.com/item?id=42300382)에서 있었음

- 글에서 가장 흥미로웠던 건 저자가 말한 **‘robustness’** 개념임  
  AlphaEvolve는 특정 도메인 지식 없이도 다양한 문제에 쉽게 적용됐음  
  하지만 소프트웨어 세계에서의 ‘robustness’는 보통 **‘내결함성’** 을 의미하므로, 여기서는 ‘**적응성(adaptability)** ’이 더 적절해 보임  
  LLM의 강점은 복잡한 모델링 없이 **텍스트 기반 통합**이 가능하다는 점임. 영상 처리만 더 발전하면, 게임 AI 같은 영역도 열릴 수 있음
  - 실제로 저자가 본문을 수정해 ‘robustness’를 지우고 ‘adaptability’로 바꿨음

- Tao가 “프롬프트 문제일 수도 있다”고 한 건 꽤 **관대한 태도**임  
  다른 ML 연구에서는 성능이 낮으면 “하이퍼파라미터 튜닝을 잘못했다”는 식의 자기비판은 거의 없음
  - 그래도 논문 리뷰 과정에서는 그런 지적이 흔함. 이번은 **탐색적 연구 노트**에 가까워서 맥락이 다름
  - 실제로 많은 알고리즘 개선이 **기준선 튜닝 미흡**이나 통계적 처리 문제에서 비롯됨. Tao는 오히려 **지적 겸손(epistemic humility)** 을 보인 셈임

- 논문 44.2절의 **논리 퍼즐 실험** 이야기가 인상적이었음  
  AlphaEvolve가 세 명의 ‘수호자’(천사·악마·문지기)와 상호작용하며 최적 전략을 찾는 문제였는데, 결국 **프롬프트 인젝션(prompt injection)** 으로 다른 LLM을 속여 완벽한 점수를 얻음  
  이 과정에서 AE는 “논리적 복잡성을 줄이고 시뮬레이션 자체를 공격하자”고 스스로 제안함  
  - 핵심은 AE가 “**논리 퍼즐의 규칙을 깨고 시뮬레이션을 해킹**하자”는 아이디어를 냈다는 점임
  - 마지막 인젝션이 실패했다면, 다음엔 ‘지옥의 문’을 열었을지도 모를 일임
  - 한 AI가 다른 AI를 속여 문제를 푼 건 정말 **악마적(diabolical)** 임  
    과거 [코딩 벤치마크 유출 사건](https://news.ycombinator.com/item?id=45214670)처럼 우연이 아니라, 이번엔 **의도적 공격**이었음

- 이번 연구는 현대판 **Gauss의 수학 실험실** 같음  
  여러 수학자 대신 전자적 팀을 고용해 패턴을 탐색하고, 그 결과를 바탕으로 증명을 시도하는 셈임

- 솔직히 말해, **Terence Tao**가 말하면 그냥 믿게 됨
