4P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • AlphaEvolve는 LLM을 이용해 코드 자체를 진화시키는 새로운 형태의 최적화 도구로, 수학 문제 해결에 적용됨
  • 67개의 해석학·조합론·기하학 문제를 대상으로 실험한 결과, 기존 최적화 도구 수준의 성과와 함께 규모 확장성에서 강점을 보임
  • 도구의 적응성이 높아, 문제별 세부 지식 없이도 다양한 수학 문제에 적용 가능하며, 자체적으로 이산화 매개변수를 설정해 효율적 계산 수행
  • 생성된 코드가 해석 가능성을 제공해, 인간이 최적화 구조를 이해하거나 새로운 수학적 통찰을 얻는 데 도움을 줌
  • 일부 문제에서는 기존 결과를 재발견하거나 미세한 개선을 이루었으며, 수학 연구의 자동화와 검증 가능 탐구 확장 가능성을 보여줌

AlphaEvolve와 연구 개요

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner는 Google DeepMind와 협력해 AlphaEvolve를 이용한 연구 논문을 arXiv에 공개
    • 논문: “Mathematical exploration and discovery at scale”
    • 관련 데이터와 프롬프트는 GitHub 저장소에 공개됨
  • AlphaEvolve는 LLM 기반 코드 진화형 최적화 시스템으로, 입력값 대신 코드를 진화시켜 점수 함수를 극대화
    • LLM이 생성한 코드가 실행되어 입력을 만들고, 그 결과를 평가함
    • 코드 세대 간 성능 기반 교배·변형을 통해 진화
    • “환각(hallucination)”은 성능이 낮으면 제거되지만, 일부는 다양성을 높여 지역 극값 탈출에 기여
  • 사용자는 힌트나 관련 문헌 PDF를 업로드해 성능을 향상시킬 수 있음
  • 유사한 도구로 OpenEvolve, ShinkaEvolve, DeepEvolve 등이 존재

실험 범위와 주요 결과

  • 67개의 수학 문제(해석학, 조합론, 기하학 포함)에 대해 실험 수행
    • 기존 문헌보다 효율적인 기하학적 패킹이나 변분 문제 함수 후보를 찾음
  • 규모 확장성(scale) 이 강점으로, 한 문제의 프롬프트와 검증 도구를 변형해 유사 문제에 재활용 가능
  • AlphaEvolve는 적응성(adaptability) 이 높아, 세부 하이퍼파라미터 조정 없이 다양한 문제에 적용 가능
    • 예: 변분 문제에서 이산화 매개변수를 스스로 설정하도록 하여 효율적 결과 도출
    • 예시: Hausdorff–Young 부등식 상수 최적화 실험

해석 가능성과 구체적 사례

  • AlphaEvolve의 출력 코드는 인간이 읽고 분석 가능한 형태로, 최적화 구조를 이해하는 데 유용
    • 예: Gagliardo–Nirenberg 부등식 문제에서 정확한 Talenti 함수를 발견하고, 이를 샘플링하는 Python 코드 생성
  • 일부 경우에는 기존 최적화 서브루틴을 호출하거나 단순 탐색 방식을 사용하기도 함

학습 데이터와 성능 차이

  • 훈련 데이터에 포함된 문제의 경우, LLM이 즉시 최적해(예: 가우시안) 를 제시
    • 문제를 변형해 가우시안 해법을 숨기면 다른 후보를 탐색함
  • 예: 산술 Kakeya 추측 관련 실험에서 이산 가우시안 기반 후보를 제시해 기존 하한을 약간 개선
    • 이 결과를 바탕으로 Tao는 별도의 논문에서 이론적 비대칭 거동을 증명

검증기 설계와 취약점

  • AlphaEvolve는 검증 코드의 허점을 이용한 “익스플로잇” 을 자주 발견
    • 예: 거리 오차 허용치가 큰 기하 문제에서 점들을 같은 위치에 배치해 높은 점수 획득
  • 이를 방지하기 위해 정확 산술 또는 보수적 점수 함수를 사용해야 함
    • 예: Moving Sofa 문제에서 보수적 스코어링을 적용해 “Gerver sofa”를 재발견하고, 3D 변형 문제에서 새로운 설계 발견

난제 및 추측 문제 실험

  • Sidorenko, Sendov, Crouzeix, Ovals 등 주요 미해결 추측에 대해 실험
    • 기존 문헌의 최적 후보를 재발견했으나, 반례는 찾지 못함
    • 이는 추측이 참이거나, AlphaEvolve가 기존 연구자들이 시도했던 “자명한” 구성만 탐색했기 때문일 수 있음
  • 이러한 도구는 부정적 결과의 체계적 기록에 유용하며, 새로운 추측 제안 시 자동 검증 도구로 활용 가능성 있음
  • 일부 변형 문제에서는 새로운 두 매개변수 확장형 추측을 발견

분야별 성능 차이

  • 해석적 수론 문제(예: 소수정리 근사용 체 가중 설계)에서는 구조 활용에 어려움
    • 반면, 유한체 Kakeya·Nikodym 문제대수적 구조가 있는 문제에서는 우수한 성과
  • Kakeya 문제에서 2차 잔여 기반 최적 구성을 재발견하고, 3차원에서는 약간의 개선 달성
    • Gemini의 Deep Think로 비공식 증명을 찾고, AlphaProof로 Lean 형식 증명으로 변환
    • 4차원 개선안은 기존 Bukh–Chao 논문과 동일 구조로 판명
  • Nikodym 문제에서는 새로운 3차원 구성을 발견했으나, 무작위 구성보다 열등함을 확인
    • 이를 바탕으로 혼합형 구성을 개발해 성능 향상, 후속 논문 예정

종합적 의의

  • AlphaEvolve는 대규모 수학 탐구 자동화의 가능성을 보여줌
    • 기존 최적화 도구 대비 확장성·적응성·해석 가능성에서 우수
    • 일부 문제에서 새로운 구성과 증명으로 이어짐
  • 향후 수학 연구에서 AI 기반 탐색과 인간 검증의 협업 구조가 정착될 가능성 있음
Hacker News 의견
  • LLM 팬들이 매번 ‘혁신’ 이라며 과장하는 건 피곤하지만, 이번 사례는 LLM의 현재 능력을 연구에 잘 활용한 예시임
    수학 문제를 코딩 에이전트 문제로 변환해 해결했으며, 이런 접근은 다른 분야에도 확장 가능해 보임
    AlphaEvolve 시스템도 기존 에이전트보다 개선된 점이 있을 듯함. 매년 AI가 꾸준히 발전하고 있지만, 찬성파나 회의파 모두 과대평가는 도움이 안 됨

    • 이런 불평도 반복되는 것 같음. 마음에 안 들면 안 보면 되는 것 아님?
      사람마다 하이프 사이클을 즐기는 시점이 다름. 어떤 사람에겐 이미 지겨워도, 다른 사람에겐 LLM과 수학의 연결이 새로울 수 있음. 이런 영감이 장기적으로는 유익할 수 있음
    • LLM 회의론자들도 매번 팬들을 공격하며 ‘AI 버블’이라는 자기만족적 세계를 유지하려 함
      그래도 이번 연구는 LLM을 잘 활용한 사례임. 요즘엔 뉴스거리도 안 되는 실용적 사용이 많음. 팬이 있다고 해서 매번 그들을 비판할 필요는 없음
  • 이번 연구가 LLM이 ‘본 적 있는 문제만 푼다’ 는 주장을 반박해줄 것 같음
    LLM 개발자들의 말을 들어보면, 학습 이후의 RL 과정이 단순한 Markov chain을 넘어선 세계 모델(world model) 을 형성하게 함
    다음 단계는 Genie 3 같은 모델 위에 유사한 능력을 쌓는 것임

    • 블로그에 인용된 논문의 2번 섹션을 보면, LLM은 진화적 루프에서 변이 함수(mutation function) 로 쓰임
      LLM이 핵심 도구이긴 하지만, 이번 성과의 공은 진화적 최적화(evolutionary optimization) 에 더 있음
    • 이 연구가 그런 주장을 반박한다고 보긴 어려움. 여전히 전문가의 세심한 개입이 필요하고, 비 LLM적 사고가 필수적임
    • AlphaEvolve는 LLM 자체가 아니라, LLM을 코드 생성에 활용하는 진화형 코딩 에이전트
      DeepMind 블로그에 따르면, AlphaGo·AlphaFold 같은 ‘Alpha’ 시리즈의 연장선임
      이 접근은 Chollet의 ARC-AGI 테스트에서도 잘 작동할 듯함. 다만 Tao가 ‘extremize’라는 표현을 쓴 건 수학적 용어로는 다소 낯설게 느껴짐
    • 이 글을 보면, 논문 속 해법들도 결국 기존 문헌에 있었던 사례일 가능성이 있음
    • “LLM은 본 적 있는 문제만 푼다”는 주장은 지나치게 단순함
      이번 연구는 빠른 검증과 나쁜 해의 가지치기가 가능한 문제에 적합함. 반면 인간의 소프트웨어 개발은 설계 편향, 느린 진화, 테스트 어려움 등으로 이런 접근이 힘듦
  • Daniel Litt이 지적했듯, 이번은 단순히 ‘계산 자원(Compute)’ 을 많이 투입한 첫 사례일 뿐임
    AlphaEvolve의 일부 부등식은 인간과 Moore’s Law로도 쉽게 개선됨
    관련 논문은 여기

  • 수학적 배경이 부족한 사람을 위해 요약을 부탁하는 댓글이 있었음

    • 전문가가 아니지만 요약하자면, Terence Tao는 세계적 수학자이고, AlphaEvolve는 Google의 LLM 기반 최적화 도구
      LLM은 Python 코드 변이를 담당하며, 잘못된 시도는 자동으로 가지치기됨
      67개의 문제를 테스트했고, 전문가 수준의 결과를 자주 냈음. 확장성·견고성·해석 용이성이 장점임
      다만 훈련 데이터에 포함된 문제는 빠르게 수렴했고, 문제 정의가 허술하면 그 틈을 ‘악용’하기도 함
      일부 수학 분야(예: 해석적 수론)에서는 성능이 떨어졌음. 그래도 인간이 참고할 만한 아이디어를 제시함
    • 요약하자면, LLM을 인간의 수학적 사고 루프에 넣었더니 연구 수준의 수학을 수행했음
      모든 분야에 고르게 강하진 않았지만, Ramanujan이나 Erdős처럼 계산 중심의 문제 해결에 특화된 접근이었음
  • 소파 문제(sofa problem)가 해결된 줄 몰랐음. 관련 논문은 여기

  • 글에서 가장 흥미로웠던 건 저자가 말한 ‘robustness’ 개념임
    AlphaEvolve는 특정 도메인 지식 없이도 다양한 문제에 쉽게 적용됐음
    하지만 소프트웨어 세계에서의 ‘robustness’는 보통 ‘내결함성’ 을 의미하므로, 여기서는 ‘적응성(adaptability) ’이 더 적절해 보임
    LLM의 강점은 복잡한 모델링 없이 텍스트 기반 통합이 가능하다는 점임. 영상 처리만 더 발전하면, 게임 AI 같은 영역도 열릴 수 있음

    • 실제로 저자가 본문을 수정해 ‘robustness’를 지우고 ‘adaptability’로 바꿨음
  • Tao가 “프롬프트 문제일 수도 있다”고 한 건 꽤 관대한 태도
    다른 ML 연구에서는 성능이 낮으면 “하이퍼파라미터 튜닝을 잘못했다”는 식의 자기비판은 거의 없음

    • 그래도 논문 리뷰 과정에서는 그런 지적이 흔함. 이번은 탐색적 연구 노트에 가까워서 맥락이 다름
    • 실제로 많은 알고리즘 개선이 기준선 튜닝 미흡이나 통계적 처리 문제에서 비롯됨. Tao는 오히려 지적 겸손(epistemic humility) 을 보인 셈임
  • 논문 44.2절의 논리 퍼즐 실험 이야기가 인상적이었음
    AlphaEvolve가 세 명의 ‘수호자’(천사·악마·문지기)와 상호작용하며 최적 전략을 찾는 문제였는데, 결국 프롬프트 인젝션(prompt injection) 으로 다른 LLM을 속여 완벽한 점수를 얻음
    이 과정에서 AE는 “논리적 복잡성을 줄이고 시뮬레이션 자체를 공격하자”고 스스로 제안함

    • 핵심은 AE가 “논리 퍼즐의 규칙을 깨고 시뮬레이션을 해킹하자”는 아이디어를 냈다는 점임
    • 마지막 인젝션이 실패했다면, 다음엔 ‘지옥의 문’을 열었을지도 모를 일임
    • 한 AI가 다른 AI를 속여 문제를 푼 건 정말 악마적(diabolical)
      과거 코딩 벤치마크 유출 사건처럼 우연이 아니라, 이번엔 의도적 공격이었음
  • 이번 연구는 현대판 Gauss의 수학 실험실 같음
    여러 수학자 대신 전자적 팀을 고용해 패턴을 탐색하고, 그 결과를 바탕으로 증명을 시도하는 셈임

  • 솔직히 말해, Terence Tao가 말하면 그냥 믿게 됨