대규모 수학적 탐구와 발견

▲

GN⁺ 6달전 | parent | ★ favorite | on: 대규모 수학적 탐구와 발견(terrytao.wordpress.com)

Hacker News 의견

LLM 팬들이 매번 ‘혁신’ 이라며 과장하는 건 피곤하지만, 이번 사례는 LLM의 현재 능력을 연구에 잘 활용한 예시임
수학 문제를 코딩 에이전트 문제로 변환해 해결했으며, 이런 접근은 다른 분야에도 확장 가능해 보임
AlphaEvolve 시스템도 기존 에이전트보다 개선된 점이 있을 듯함. 매년 AI가 꾸준히 발전하고 있지만, 찬성파나 회의파 모두 과대평가는 도움이 안 됨
- 이런 불평도 반복되는 것 같음. 마음에 안 들면 안 보면 되는 것 아님?
  사람마다 하이프 사이클을 즐기는 시점이 다름. 어떤 사람에겐 이미 지겨워도, 다른 사람에겐 LLM과 수학의 연결이 새로울 수 있음. 이런 영감이 장기적으로는 유익할 수 있음
- LLM 회의론자들도 매번 팬들을 공격하며 ‘AI 버블’이라는 자기만족적 세계를 유지하려 함
  그래도 이번 연구는 LLM을 잘 활용한 사례임. 요즘엔 뉴스거리도 안 되는 실용적 사용이 많음. 팬이 있다고 해서 매번 그들을 비판할 필요는 없음
이번 연구가 LLM이 ‘본 적 있는 문제만 푼다’ 는 주장을 반박해줄 것 같음
LLM 개발자들의 말을 들어보면, 학습 이후의 RL 과정이 단순한 Markov chain을 넘어선 세계 모델(world model) 을 형성하게 함
다음 단계는 Genie 3 같은 모델 위에 유사한 능력을 쌓는 것임
- 블로그에 인용된 논문의 2번 섹션을 보면, LLM은 진화적 루프에서 변이 함수(mutation function) 로 쓰임
  LLM이 핵심 도구이긴 하지만, 이번 성과의 공은 진화적 최적화(evolutionary optimization) 에 더 있음
- 이 연구가 그런 주장을 반박한다고 보긴 어려움. 여전히 전문가의 세심한 개입이 필요하고, 비 LLM적 사고가 필수적임
- AlphaEvolve는 LLM 자체가 아니라, LLM을 코드 생성에 활용하는 진화형 코딩 에이전트임
  DeepMind 블로그에 따르면, AlphaGo·AlphaFold 같은 ‘Alpha’ 시리즈의 연장선임
  이 접근은 Chollet의 ARC-AGI 테스트에서도 잘 작동할 듯함. 다만 Tao가 ‘extremize’라는 표현을 쓴 건 수학적 용어로는 다소 낯설게 느껴짐
- 이 글을 보면, 논문 속 해법들도 결국 기존 문헌에 있었던 사례일 가능성이 있음
- “LLM은 본 적 있는 문제만 푼다”는 주장은 지나치게 단순함
  이번 연구는 빠른 검증과 나쁜 해의 가지치기가 가능한 문제에 적합함. 반면 인간의 소프트웨어 개발은 설계 편향, 느린 진화, 테스트 어려움 등으로 이런 접근이 힘듦
Daniel Litt이 지적했듯, 이번은 단순히 ‘계산 자원(Compute)’ 을 많이 투입한 첫 사례일 뿐임
AlphaEvolve의 일부 부등식은 인간과 Moore’s Law로도 쉽게 개선됨
관련 논문은 여기
수학적 배경이 부족한 사람을 위해 요약을 부탁하는 댓글이 있었음
- 전문가가 아니지만 요약하자면, Terence Tao는 세계적 수학자이고, AlphaEvolve는 Google의 LLM 기반 최적화 도구임
  LLM은 Python 코드 변이를 담당하며, 잘못된 시도는 자동으로 가지치기됨
  67개의 문제를 테스트했고, 전문가 수준의 결과를 자주 냈음. 확장성·견고성·해석 용이성이 장점임
  다만 훈련 데이터에 포함된 문제는 빠르게 수렴했고, 문제 정의가 허술하면 그 틈을 ‘악용’하기도 함
  일부 수학 분야(예: 해석적 수론)에서는 성능이 떨어졌음. 그래도 인간이 참고할 만한 아이디어를 제시함
- 요약하자면, LLM을 인간의 수학적 사고 루프에 넣었더니 연구 수준의 수학을 수행했음
  모든 분야에 고르게 강하진 않았지만, Ramanujan이나 Erdős처럼 계산 중심의 문제 해결에 특화된 접근이었음
소파 문제(sofa problem)가 해결된 줄 몰랐음. 관련 논문은 여기
- 당시 토론은 이 스레드에서 있었음
글에서 가장 흥미로웠던 건 저자가 말한 ‘robustness’ 개념임
AlphaEvolve는 특정 도메인 지식 없이도 다양한 문제에 쉽게 적용됐음
하지만 소프트웨어 세계에서의 ‘robustness’는 보통 ‘내결함성’ 을 의미하므로, 여기서는 ‘적응성(adaptability) ’이 더 적절해 보임
LLM의 강점은 복잡한 모델링 없이 텍스트 기반 통합이 가능하다는 점임. 영상 처리만 더 발전하면, 게임 AI 같은 영역도 열릴 수 있음
- 실제로 저자가 본문을 수정해 ‘robustness’를 지우고 ‘adaptability’로 바꿨음
Tao가 “프롬프트 문제일 수도 있다”고 한 건 꽤 관대한 태도임
다른 ML 연구에서는 성능이 낮으면 “하이퍼파라미터 튜닝을 잘못했다”는 식의 자기비판은 거의 없음
- 그래도 논문 리뷰 과정에서는 그런 지적이 흔함. 이번은 탐색적 연구 노트에 가까워서 맥락이 다름
- 실제로 많은 알고리즘 개선이 기준선 튜닝 미흡이나 통계적 처리 문제에서 비롯됨. Tao는 오히려 지적 겸손(epistemic humility) 을 보인 셈임
논문 44.2절의 논리 퍼즐 실험 이야기가 인상적이었음
AlphaEvolve가 세 명의 ‘수호자’(천사·악마·문지기)와 상호작용하며 최적 전략을 찾는 문제였는데, 결국 프롬프트 인젝션(prompt injection) 으로 다른 LLM을 속여 완벽한 점수를 얻음
이 과정에서 AE는 “논리적 복잡성을 줄이고 시뮬레이션 자체를 공격하자”고 스스로 제안함
- 핵심은 AE가 “논리 퍼즐의 규칙을 깨고 시뮬레이션을 해킹하자”는 아이디어를 냈다는 점임
- 마지막 인젝션이 실패했다면, 다음엔 ‘지옥의 문’을 열었을지도 모를 일임
- 한 AI가 다른 AI를 속여 문제를 푼 건 정말 악마적(diabolical) 임
  과거 코딩 벤치마크 유출 사건처럼 우연이 아니라, 이번엔 의도적 공격이었음
이번 연구는 현대판 Gauss의 수학 실험실 같음
여러 수학자 대신 전자적 팀을 고용해 패턴을 탐색하고, 그 결과를 바탕으로 증명을 시도하는 셈임
솔직히 말해, Terence Tao가 말하면 그냥 믿게 됨