AlphaEvolve: 여러 분야로 영향력을 확장하는 Gemini 기반 코딩 에이전트
(deepmind.google)- AlphaEvolve는 Gemini 기반 코딩 에이전트로, 고급 알고리듬 설계에서 출발해 수학·컴퓨터 과학의 공개 문제, Google 인프라 최적화, 과학·산업 과제로 적용 범위를 넓힘
- 유전체학에서는 DeepConsensus를 개선해 변이 검출 오류를 30% 감소시켰고, 전력망에서는 AC Optimal Power Flow 문제의 실행 가능한 해 발견 비율을 14%에서 88% 이상으로 높이는 데 기여함
- 지구과학에서는 Earth AI 모델 최적화를 자동화해 산불·홍수·토네이도 등 20개 범주의 자연재해 위험 예측 전체 정확도를 5% 향상시켰고, 양자 물리에서는 Willow quantum processor에서 기존 기준선보다 오류가 10배 낮은 양자 회로를 제안함
- 수학에서는 Terence Tao와 함께 Erdős 문제 해결에 기여했고, Traveling Salesman Problem과 Ramsey Numbers의 하한 개선, 해석 가능한 신경과학 모델·미시경제학·암호학·합성 데이터·AI 안전 완화책에도 사용됨
- Google 인프라에서는 차세대 TPU 설계, 캐시 교체 정책, Google Spanner의 LSM-tree 컴팩션 휴리스틱, 컴파일러 최적화에 쓰였고, 상용 적용에서는 Klarna의 학습 속도 2배, FM Logistic의 경로 효율 10.4% 개선, Schrödinger의 MLFF 학습·추론 약 4배 속도 향상을 달성함
사회적 영향과 지속가능성
-
유전체학
- AlphaEvolve는 Google Research가 개발한 DNA 시퀀싱 오류 보정 모델 DeepConsensus를 개선하는 데 사용돼 변이 검출 오류를 30% 감소시킴
- 이 개선은 PacBio의 과학자들이 유전 데이터를 더 정확하고 낮은 비용으로 분석하는 데 도움을 줌
- PacBio의 Aaron Wenger는 AlphaEvolve로 발견한 해법이 시퀀싱 장비의 정확도를 의미 있게 높이며, 연구자들이 더 높은 품질의 데이터로 이전에 숨겨져 있던 질병 유발 돌연변이를 발견할 수 있을 것이라고 밝힘
-
전력망 최적화
- AlphaEvolve는 AC Optimal Power Flow problem에 적용됨
- 학습된 Graph Neural Network(GNN) 모델이 해당 문제의 실행 가능한 해를 찾는 비율을 14%에서 88% 이상으로 높이는 데 기여함
- 이 결과로 전력망에서 비용이 큰 후처리 단계의 필요성이 크게 줄어듦
-
지구과학
- AlphaEvolve는 복잡한 지리공간 데이터를 더 신뢰할 수 있고 실행 가능한 통찰로 변환하는 데 사용됨
- Earth AI 모델 최적화를 자동화해, 산불·홍수·토네이도 등 20개 범주를 집계한 자연재해 위험 예측의 전체 정확도를 5% 향상시킴
연구 최전선의 진전
-
양자 물리
- AlphaEvolve의 최적화는 Google의 Willow quantum processor에서 복잡한 분자 시뮬레이션을 실행할 수 있게 함
- 기존의 통상적 최적화 기준선보다 오류가 10배 낮은 양자 회로를 제안해, 최초 유형의 양자 컴퓨팅 실험 시연에 즉각 기여함
- 이 성과는 AlphaEvolve가 고전 컴퓨터의 능력을 넘어서는 알고리듬을 찾는 미래로 이어질 수 있음을 보여줌
-
수학
- AlphaEvolve는 Terence Tao 같은 수학자들과 함께 Erdős 문제 해결에 기여함
- Terence Tao는 AlphaEvolve 같은 도구가 특히 최적화 문제에서 잠재적 부등식의 반례를 빠르게 테스트하거나 극값 대상에 대한 믿음을 확인하게 해 직관을 크게 개선하고 엄밀한 증명을 더 쉽게 찾게 한다고 밝힘
- AlphaEvolve는 Traveling Salesman Problem과 Ramsey Numbers 같은 고전적 수학 과제의 하한을 개선하며 기록을 경신함
-
다른 연구 분야
- AlphaEvolve의 자율 발견 능력은 여러 분야에서 병렬 혁신을 이끌고 있음
- 해석 가능한 신경과학 모델 발견, 미시경제학의 새로운 시장 한계 증명, 신경망 구성 요소 발전에 사용됨
- 사용자 프라이버시를 위한 암호학, 합성 데이터 생성, 프런티어 AI 모델을 위한 핵심 안전 완화책에도 적용됨
- AlphaEvolve가 “Tammes problem” 인스턴스를 최적화한 예시와 추가 문제의 잠재적 해법은 공개 Gallery에서 확인 가능함
AI 인프라 개선
- AlphaEvolve는 파일럿 테스트를 넘어 Google 인프라의 핵심 구성요소가 됨
- TPU 차세대 설계를 최적화하는 정규 도구로 사용됨
- 더 효율적인 캐시 교체 정책을 발견해, 이전에는 사람의 집중적 노력이 수개월 필요했던 작업을 이틀 만에 달성함
- Jeff Dean은 AlphaEvolve가 AI 스택을 구동하는 하드웨어의 최저 수준을 최적화하기 시작했으며, 직관에 반하지만 효율적인 회로 설계를 제안해 차세대 TPU 실리콘에 직접 통합됐다고 밝힘
- AlphaEvolve는 Google Spanner의 Log-Structured Merge-tree 컴팩션 휴리스틱을 개선해 효율을 높임
- 이 최적화는 원래 요청 대비 스토리지에 기록되는 데이터 비율인 쓰기 증폭(write amplification) 을 20% 감소시킴
- AlphaEvolve는 소프트웨어의 저장 공간 사용량을 거의 9% 줄인 새 컴파일러 최적화 전략에 대한 통찰도 제공함
상용 적용 확대
- Google Cloud와 함께 AlphaEvolve를 여러 산업의 상용 기업에 제공하고 있음
- 금융 서비스 분야에서 Klarna는 AlphaEvolve를 사용해 자사의 대형 transformer 모델 중 하나를 최적화했고, 모델 품질을 개선하면서 학습 속도를 2배로 높임
- 반도체 제조 분야에서 Substrate는 AlphaEvolve를 계산 리소그래피 프레임워크에 적용해 런타임 속도를 여러 배 높였고, 더 큰 규모의 첨단 반도체 시뮬레이션을 실행할 수 있게 됨
- 물류 분야에서 FM Logistic은 Traveling Salesman Problem 같은 복잡한 경로 문제를 최적화해, 기존에 강하게 최적화된 해법 대비 경로 효율을 10.4% 개선하고 연간 15,000km 이상의 이동 거리를 절감함
- 광고·마케팅 분야에서 WPP는 AlphaEvolve로 AI 모델 구성요소를 정제하고 복잡한 고차원 캠페인 데이터를 다뤄, 경쟁력 있는 수동 모델 최적화 대비 정확도를 10% 향상시킴
- 계산 재료·생명과학 분야에서 Schrödinger는 AlphaEvolve를 적용해 Machine Learned Force Fields(MLFF) 학습과 추론 모두에서 약 4배 속도 향상을 달성함
- Schrödinger의 Gabriel Marques는 더 빠른 MLFF 추론이 신약 발견, 촉매 설계, 재료 개발의 R&D 주기를 줄이고 기업이 분자 후보를 수개월이 아니라 며칠 만에 선별하게 해 실질적 사업 영향을 낸다고 밝힘
향후 방향
- 지난 1년 동안 AlphaEvolve는 다목적 범용 시스템으로 빠르게 자리 잡고 있음
- 다음 돌파구가 스스로 학습하고 진화하며 최적화할 수 있는 알고리듬에 의해 주도될 수 있음을 보여줌
- Google DeepMind는 AlphaEvolve의 기능을 확장하고 더 넓은 외부 과제에 적용하려 함
Hacker News 의견들
-
Antirez의 "Don't fall into the anti-AI hype" [0]가 떠오름
한 줄로 요약하면, 이런 기반 모델은 “행렬 곱을 더 빠르게 하라”처럼 매우 고수준이면서도 매우 잘 정의된 문제 공간을 최적화하는 데 정말 강함. Antirez의 경우는 “Redis를 더 빠르게 하라”였음
반응은 “내 일에는 절대 안 통할 것”과 “몇 달 걸릴 일을 한 시간 만에 끝냈다”로 갈렸고, 둘 다 맞다고 봄. Antirez가 이후에도 성과를 내는 건 기뻐할 만하지만 [1], 대부분의 사람이 하는 암묵지 많고 인간 시스템 중심이며 모호하게 정의된 일은 LLM이 다루기 어렵거나 애초에 그런 용도가 아니었을 수 있다고 봐도 된다고 생각함
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164- 솔직히 이제는 그렇게 믿지 않음. 모델들이 모호성을 꽤 잘 다루기 시작했고, Claude Code는 모호한 부분이 있으면 이제 나에게 질문함
곧 모든 회의가 녹음·전사되어 에이전트가 모호함을 마주했을 때 검색할 수 있는 잘 색인된 장소에 저장될 것임. 지금 질문할 수 있다면, 그런 환경이 갖춰졌을 때 스스로 답을 검색할 수도 있게 됨. 사실 문서화가 잘 된 Notion/Confluence가 있으면 이미 그렇게 하며, 다만 그런 조직이 거의 없을 뿐임
“모호성 식별”을 강화학습시키는 건 성능 알고리즘을 강화학습시키는 것보다 어렵겠지만 불가능하지 않고 이미 진행 중이라고 봄. 이제 시간 문제임 - Claude 등은 내가 생각한 알고리즘을 빠르게 구현하는 데 꽤 좋았음. 다만 통제 질문을 많이 하고 코드를 확인해야 함
비주류 알고리즘을 새로 발명하는 데는 약하고, 어이없을 정도로 단기적인 지름길을 끼워 넣는 경우가 잦음. 아직은 도구이지 도구를 능숙하게 다루는 장인은 아님. 이건 점차 바뀔 것이고, 드문 알고리즘이 이기는 구석도 더 줄어들 것임 - 결국 요인은 둘 중 하나처럼 보임: “놀랍다, 효율을 1% 개선했다” 또는 “멍청하게도 환각 API를 디버깅하느라 한 시간을 날렸다”
평균적으로 어느 쪽이 이길지 판단하기가 정말 어려움 - AI 보조 연구가 AI를 LLM 너머로 밀어 올리면 어떨까? 그런 일이 일어날 수 없다고 보는 건가?
- “LLM이 암묵지 많고 인간 시스템 중심이며 모호하게 정의된 일을 못 한다”는 말은 2030년쯤이면 굉장히 근시안적으로 보일 가능성이 큼
- 솔직히 이제는 그렇게 믿지 않음. 모델들이 모호성을 꽤 잘 다루기 시작했고, Claude Code는 모호한 부분이 있으면 이제 나에게 질문함
-
AI CEO들은 AI가 암을 치료할 거라며 장광설을 늘어놓기 좋아하지만, 실제로 그런 연구 문제에 적극적으로 매달리는 곳은 DeepMind뿐인 것 같음
OpenAI와 Anthropic은 대체로 기업 매출과 코딩 매출을 좇는 쪽으로 보임- Google은 전쟁자금으로 자체 조달이 가능하지만, OpenAI와 Anthropic은 투자자에게 손 벌리는 처지임
-
Googler들은 Claude Code나 Codex 대신 Gemini 코딩 에이전트를 쓰는 걸 만족해하나? 비꼬는 게 아니라 정말 궁금함
- 그렇다. 모델은 좋고 빠르며, 내부 도구도 이제 따라잡았음
아직 UI/UX/도구 쪽에서 정리 중인 부분, 버전 관리 시스템 연동, 말하기 어려운 더 깊은 문제들이 있지만, 대부분의 불만은 실제 능력보다 변화 속도에 더 가깝다고 봄
흥미로운 건 내부에서 영향력 있는 여러 사람이 Pro 모델보다 Flash 모델을 더 선호한다고 강하게 말한다는 점임. 이게 사실인지와 별개로, 이제 “더 나은” 모델이 반드시 더 유용한 건 아니며, 더 빠른 모델과 하네스 개선을 조합하는 쪽이 더 나은 절충일 수 있는 단계에 왔다는 게 흥미로움 - Gemini VS Code Extension을 말하는 거라면 Claude Code나 Codex에 비해 형편없음. 어떻게 이 상태로 운영되는지 모르겠음
계속되는 시간 초과, 이상한 실패 모드, 모드를 바꾸려면 새 채팅을 시작해야 하는 문제 등이 있음. 다만 이건 Gemini 모델 자체의 문제라기보다는 확장 프로그램 문제로 보임
VS Code 확장 측면을 빼고 실제 문제 해결만 보면, 세 프리미어 모델 모두 내 용도에는 훌륭한 코딩 에이전트임 - 코딩은 Gemini나 이런 모델들의 유일한 용도가 아님. 이 글이 다루는 것도 코딩이 아님
Gemini가 최고의 코딩 에이전트가 아닐 수는 있지만, 다른 일에는 매우 좋을 수 있음 - 지난달 Steve Yegge는 그렇지 않다고 시사했음: https://xcancel.com/Steve_Yegge/status/2043747998740689171
- Google에 있는 사람들과 이야기해 보면, 대부분 내부 Gemini 에이전트에 불만이 있었고 최근 들어 상당히 나빠졌다고 보는 듯함
도구 호출 방법을 완전히 잊고 한참 시간을 낭비하다가 결국 포기하거나, AGENTS.md 비슷한 파일의 코드 스타일 지침을 완전히 무시하는 식임
Gemma 4를 로컬에서 돌린 내 경험도 비슷했음. 도구 호출을 한두 번 한 뒤에는 제멋대로 호출하기 시작함. 바로 어제도 read_file(start, end) 같은 도구를 read_file(start, number_of_bytes)로 재정의해 놓고, 자신이 틀렸다는 가능성조차 인정하지 않는 걸 봄
- 그렇다. 모델은 좋고 빠르며, 내부 도구도 이제 따라잡았음
-
AI가 스스로, 또는 적어도 자신이 돌아가는 아키텍처를 개선한다면 사람들이 말하듯 특이점이 가까운 셈임
합성 데이터 생성이나 모델 테스트 외에, AI가 LLM을 개선하는 데 쓰인 다른 사례가 있을까?- AI가 스스로를 더 유능하게 만드는 것과, AI 학습·추론에 쓰이는 소프트웨어를 최적화하는 것은 사과와 오렌지만큼 다름
더 효율적인 트랜스포머는 실행 비용을 낮출 뿐임
“AI가 AI를 개선한다”라고 하려면 한 세대의 AI가 자신보다 근본적으로 더 유능한 차세대 AI를 설계해야 함. 단지 더 빠르거나 싸게 만드는 게 아니라, 파충류 뇌가 포유류 뇌를 자율적으로 설계하는 수준이어야 함
AlphaEvolve 같은 똑똑한 하네스에 연결해도, LLM에 그런 창의성이 있다고 보지는 않음. 다만 차세대 아키텍처가 LLM이 예측하도록 유도할 수 있는 부품 조합으로 뻔히 숨어 있다면 예외일 수 있음
더 가능성 높은 경로는 AGI를 향한 인간 혁신이 몇 단계 더 진행된 뒤, 프롬프트 기반 조합 생성이 아니라 자율 혁신을 할 수 있는 AI가 나오는 것임 - 있음. 작년에 AlphaEvolve를 공개했을 때 이전 Gemini 모델로 이번 세대 모델 학습에 쓰이는 커널을 개선했고, 학습 실행을 1% 빠르게 만들었음. 크지는 않지만 그래도 성과임
- 최근 가장 바이럴된 건 https://github.com/karpathy/autoresearch 같음
- 자기 개선이 꼭 특이점을 뜻하지는 않지 않나?
특이점을 불가능하게 만들 정도의 강한 제약이 있을 수도 있고, 시간 지평이 너무 길어서 실용적이지 않을 수도 있지 않나? - “AI가 스스로 개선한다”는 건 개인적으로 2027년에 봐야 할 지점이라고 생각함
모든 대형 AI 연구소가 연구 에이전트, 특히 AI 개선을 위한 에이전트 프로젝트를 크게 진행 중이고, 올해 그중 상당수가 실험 단계를 벗어날 것으로 예상함
내년에는 실제로 많은 일을 하게 될 것이고, AI가 공동 발명한 첫 번째 큰 유효 아키텍처 변화가 나올 거라고 봄
- AI가 스스로를 더 유능하게 만드는 것과, AI 학습·추론에 쓰이는 소프트웨어를 최적화하는 것은 사과와 오렌지만큼 다름
-
Erdős 문제 얘기를 또 몇 번이나 들어야 하나 :) 처음엔 인류의 대단한 성취처럼 들리지만, 시간이 지나면 계속 다시 돌아옴
- 아직 열린 Erdős 문제가 700개 정도밖에 안 남았으니, 전부 풀리면 드디어 쉴 수 있음
-
그 와중에 Gemini CLI는 몇 달째 망가져 있음
https://github.com/google-gemini/gemini-cli/issues/22141 -
Google이 Gemini 3.x 모델을 정식 출시하는 데 집중하고, 429 오류와 계속 싸우지 않아도 될 만큼 충분한 용량을 제공해 줬으면 함
Vertex API로 기업 고객용 애플리케이션을 개발하지 말라는 것처럼 느껴질 때가 많음. 문서 분석 등에서 모델이 정말 훌륭했던 걸 생각하면 아쉬움이 큼- 무료 요금제에서 하는 건가? 무료 요금제에서는 429를 훨씬 더 많이 내는 걸 봤음
-
모든 *Evolve 논문은 결과가 매우 인상적이지만, 공개된 정보를 살펴보며 느낀 건 관심이 LLM과 AI 쪽에 쏠린다는 점임
그런데 보고된 성과는 거의 항상 LLM과 진화 알고리즘이 잘 작동하도록 매우 잘 설계된 환경의 결과임
이 논문이 그 좋은 예이고 읽어볼 만함
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096 -
알고리즘 개선을 위한 굉장히 단순한 해법임. 활성화 엔지니어링을 하던 몇 년 전에 이런 게 있었으면 좋았겠음: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
AlphaEvolve에는 어떻게 접근할 수 있나?- 그냥 과시용 글임. 10억 달러 회사가 되거나 아니면 나가라는 뜻임
-
Claude에서 느낀 문제는 간단한 작업에도 코드와 산출물을 지나치게 부풀려 내고, 때로는 작동하지도 않는다는 점임
Gemini는 작동하는 해법을 딱 필요한 만큼의 코드와 최소 복잡도로 제공해서 관리하기 더 쉬운 균형을 꽤 잘 맞춤
요즘 Claude를 찾는 건 프런트엔드 코드, 특히 HTML 정도임. 여기서도 CSS 코드가 너무 많아 파일 크기의 60%쯤을 차지하지만, 그래도 조금 더 다듬어진 느낌을 주기 때문에 파일 크기가 커지는 건 감수하고 있음