AlphaEvolve: Gemini 기반 첨단 알고리듬 설계 코딩 에이전트
(deepmind.google)- AlphaEvolve는 LLM과 자동 평가기를 결합한 진화형 알고리즘 생성 에이전트
- 수학·컴퓨팅·AI·하드웨어 설계 분야에서 실질적 성과를 입증하며 구글 인프라 전반에 적용됨
- Gemini Flash와 Gemini Pro를 조합해 아이디어 폭과 깊이를 함께 탐색함
- 데이터센터 스케줄링, TPU 설계, AI 커널 최적화 등에서 속도 향상 및 리소스 절감 효과 실현
- 50개 이상의 수학 난제에도 도전, 새로운 알고리즘 제안 및 일부 문제에서는 기존 해법 개선
AlphaEvolve: Gemini 기반 알고리즘 진화 에이전트
개요
- AlphaEvolve는 Google DeepMind가 개발한 대규모 언어 모델(LLM) 기반의 코딩 에이전트
- 창의적인 코드 생성은 Gemini 모델이, 검증은 자동 평가기가 수행
- 진화 알고리즘을 통해 최적의 코드 후보를 반복적으로 개선
실제 적용 분야 및 성과
구글 컴퓨팅 인프라 최적화
- 데이터센터, 하드웨어, 소프트웨어 전반에 AlphaEvolve 적용
- 효율성 개선이 전체 AI 인프라에 지속적인 파급 효과를 줌
데이터센터 스케줄링 개선
- Google의 클러스터 매니저 Borg를 위한 새로운 휴리스틱 제안
- 1년 이상 실서비스 중이며, 전세계 컴퓨팅 리소스의 0.7% 회수에 기여
- 사람이 이해할 수 있는 코드로 유지보수 용이
하드웨어 설계 지원
- Verilog로 작성된 행렬 곱셈 회로 최적화 제안
- 향후 Google의 TPU 설계에 통합 예정
- 하드웨어 엔지니어와의 협업 촉진
AI 훈련 및 추론 가속화
- 행렬 곱셈을 더 작은 문제로 분할 → Gemini 훈련 속도 1% 향상
- 커널 최적화 시간을 수 주에서 수 일로 단축
- FlashAttention 커널을 최대 32.5% 속도 개선
- 컴파일러 최적화가 극단적으로 적용된 영역에서도 추가 성능 향상 가능
수학 및 알고리듬 분야에서의 혁신
새로운 행렬 곱셈 알고리즘 발견
- 기존 Strassen 알고리즘(1969) 대비 더 나은 방법 발견
- 4x4 복소 행렬을 48개 스칼라 곱셈만으로 처리
수학 난제 탐색
-
해석학, 기하, 조합론, 수론 등 50개 이상의 문제 실험
- 75%에서 기존 최고 해법 재발견
- 20%에서는 기존 해법을 능가하는 결과 도출
-
예시: kissing number 문제의 새로운 하한 발견
- 11차원에서 593개 구의 구성으로 기존 기록 갱신
작동 방식
- 프롬프트 샘플러가 입력 생성
- Gemini Flash/Pro 모델이 코드 생성
- 자동 평가기가 정확도 및 품질 정량 평가
- 유전자 알고리즘 방식으로 성능 우수 코드를 진화
- 최적 코드는 재사용, 배포, 확장 가능
향후 계획
- 코딩 능력 향상에 따라 AlphaEvolve도 지속 개선 예정
- People + AI Research 팀과 협력하여 사용자 인터페이스 개발 중
-
Early Access Program을 통해 학계 사용자에게 공개 예정
관심 등록
응용 가능성
- 알고리즘으로 해법을 정의하고 평가 가능한 문제라면 모든 분야에 적용 가능
- 예: 신소재 개발, 신약 탐색, 지속가능성, 기술/비즈니스 문제 해결
참고 링크
Hacker News 의견
- 논문에서 인용한 내용에 따르면, 스트라센 알고리즘을 반복적으로 적용하면 4x4 행렬 곱셈에 49번의 곱셈이 필요한데, AlphaEvolve는 48번의 곱셈만으로 4x4 복소수 행렬 곱셈을 해내는 최초의 방법을 찾았음. 직접적으로 행렬을 곱해보면 비슷한 계산을 여러 번 반복하고 있다는 느낌을 받게 됨. 예를 들어, 두 집합의 합집합 크기를 구할 때도 중복된 부분을 빼줘야 함. 스트라센 알고리즘은 이후 단계에서 필요할 계산을 추적해두는 방식이고, 일종의 동적 프로그래밍과 비슷함. 흥미로운 점은 추가 절감 효과가 복소수에서만 나타난다는 것인데, 단순한 방식에서 복소수 평면 상에서 중복 카운팅이 발생하는 뭔가가 있는 것 같음
- “4x4 matrices multiplication 48”로 구글링하다가 math.stackexchange 게시글을 발견했음. 2019년에 4x4 행렬 곱셈을 48번의 곱셈만으로 할 수 있다는 언급과 박사 논문 링크가 있었음. 이 결과가 이미 알려진 부분일 수도 있다고 생각함(아직 알고리즘 개요는 확인 못 했음)
- 스트라센 알고리즘에 오해가 있는 듯함. 첫째, 스트라센은 동적 프로그래밍이 아니라 분할정복 기법의 대표적 예시임. 둘째, 스트라센 알고리즘은 복소수가 아니라 실수만으로도 동작함
- AlphaEvolve가 Transformer 기반 AI 모델의 FlashAttention 커널에서 최대 32.5%까지 속도 향상을 이뤘다는 내용이 있음. 75% 경우에는 기존 최고 솔루션을 재발견했고, 20%에서는 기존 최고 기록을 더 개선했다는 언급임. 정말 인상적인 결과인데, 실제로 어떤 방식과 개선이 이루어졌는지 구체적으로 궁금함. 32.5% 향상이 극단적 예외 케이스에서만 나온 건지 실제 벤치마크가 궁금함
- GPU에는 캐시 계층 구조가 있어서, 블록 사이즈를 최적으로 맞추는 게 엄청난 이득이지만, 실제로는 다양한 커널, GPU, 튜닝 노력이 많이 필요함. 커널 퓨전이나 API 경계 문제도 있음. AlphaEvolve의 결과는 매우 인상적이긴 하지만, 마술이나 꼼수가 아님
- AlphaEvolve는 커다란 행렬 곱셈 연산을 더 다루기 쉬운 하위 문제로 똑똑하게 나누는 방식으로, Gemini 아키텍처의 핵심 커널을 23% 가속시키고 Gemini 전체 학습 시간을 1% 줄였음
- 이런 수치들은 최근에 지나치게 과장되어 보임. 정말로 FlashAttention이 32.5%나 빨라졌다면, 왜 Flash Attention 저장소에 PR로 제출하지 않는지 궁금함. 좀 더 자세히 읽을 수 있으면 좋겠음
- 지금 이 시점은 의미 있는 순간임. 실제 세상에 실질적인 가치를 가져오는 새로운 연구를 AI 시스템이 해낼 수 있다는 확실한 증거가 생겼음. 1% 절감은 시작에 불과하고, 이런 효과가 누적되면 상당한 이득이 있을 것으로 기대함. 또한 이 과정 자체가 gemini 2.5 pro 발전에도 쓰여서, 단계적으로 자기 개선으로 가고 있음. 완전히 자동화되진 않았으나, 어디로 향할지 그 윤곽이 보임
- 유전 프로그래밍 시스템은 오랜 기간에 걸쳐 알고리즘을 개선해왔음. LLM 기반 유전 프로그래밍이 획기적 변화가 될지 점진적 진화가 될지는 아직 모르겠음. 자기 개선 개념에 대해선 조심스러움. “GP가 GP로 자신을 개선한다!”는 아이디어는 정말 오래됐지만 여전히 성과를 못 내고 있음. 관련된 타 회사 사례와 논문들도 있음
- 이 결과가 정말 새로운 것인지 의문임. 이미 48과 46 곱셈 솔루션이 알려졌다는 자료도 있고, AI가 싱귤래리티에 도달했다는 흥분도 보임. 만약 정말 대단한 돌파구라면 논문보다 더 빨리 알려졌을 것임
- 이런 발전이 얼마나 점진적인지 궁금함. 예시로 B.2(두 번째 자기상관 부등식)를 골라 이전 논문(https://arxiv.org/pdf/0907.1379)을 찾아봤는데, 저자들이 Mathematica로 수치 탐색해서 이전 상한을 구했다고 언급함. 이 부분을 더 개선하는 건 수고에 비해 이익이 적어서 안 했다고 밝힘. 즉 AlphaEvolve의 이번 발전도 꽤 점진적임(그래도 멋진 결과임)
- 지금은 “수고”가 대폭 줄어서 더 이상 ‘고생할 가치 없다’고 할 수 없는 지점에 온 것임. 이것 자체가 중요함
- 사람에게는 시간 가치가 없던 일도 AI로 자동화하면 무수한 ‘기회’들이 쌓여서 엄청난 차이를 만들어냄
- 이게 바로 진짜 AI가 이륙하기 시작했다는 신호처럼 느껴짐
- 이처럼 대담한 주장에 대해선 방어적인 입장을 취하기 어려움. 만약 진짜로 묘사된 대로라면, 이미 ‘폭주하는 AI’가 완성된 것과 다름없음. 철학적으로, 구형 LLM에게 새로운 발견을 단계적으로 설명해주면 그 정보는 ‘새로운’ 지식인데, 이게 결국 인간의 지능이 우회적으로 들어간 것임
- 멋지긴 하지만, 사실 본질적으로 Google의 Co-Scientist와 비슷하지 않음? 여러 LLM이 서로 맥락을 주고받으면서 검증하는 구조임. 실행 면에서 인상적이지만 근본적으로 완전히 새로운 건 아니라고 느낌. LLM은 코드 최적화나 인간이 놓칠 패턴이나 중복을 감지하는 데 분명 유용하지만, 이 소식도 Google의 또 다른 화려한 블로그 포스트 같은 느낌임. ‘Alpha’ 브랜드도 예전엔 AlphaGo, AlphaFold처럼 명확한 혁신에만 붙였는데, 요즘엔 상대적으로 임팩트가 적은 시스템에도 붙이는 듯함. 참고로 Co-Scientist도 평가 방법이 있었음. ( https://research.google/blog/accelerating-scientific-breakth... 참고 )
- AlphaEvolve 논문에서 이 부분을 다룸. AI Co-Scientist는 과학적 가설 및 평가를 자연어로 표현했다면, AlphaEvolve는 코드 진화와 프로그램식 평가 함수로 진화가 이루어짐. 이렇게 해서 LLM 환각을 크게 피할 수 있고, 많은 단계 동안 연속적으로 진화 절차를 진행할 수 있었음
- Google답게 비슷한 기능의 제품을 이질적인 팀이 동시에 만드는 일이 여전하다고 느낌
- “Google's Co-Scientist”가 여러 프로젝트 이름인지 모르겠음
- 특이점 기다리는 사람들은 이런 문구에 관심을 갖게 됨. “AlphaEvolve는 칩 설계 엔지니어들이 쓰는 표준 언어로 수정을 제안해서 AI와 하드웨어 엔지니어들이 협업할 수 있게 함”
- 논문의 관련 부분을 인용하자면, AlphaEvolve가 matmul 유닛 내의 연산 장치 코드에서 불필요한 비트를 없앴고, 이 변화는 TPU 디자이너들이 정확성을 검증함. 원인은 MAC 회로 출력의 상위 비트가 아래쪽 누산기 등에 쓰이지 않는 경우일 수 있음. 사실 동등한 최적화는 후속 합성 도구에서도 자동으로 이루어지는 부분이며, 소스 RTL에서 미리 비트를 자르는 게 합성 후 최적화보다 의미가 있다고 주장함. 하지만 합성 도구는 회로 의미가 달라지지 않게 보장해주고, 소스 RTL 수정은 그렇지 않아서 인간 검증이 필요함. 다만, 합성 결과에서 어떤 부분이 최적화됐는지 소스에 표시해줄 수 없는 점은 아쉬움. LLM 기반 코드 진화가 하드웨어 설계에서 조기 탐색에 의미 있지만, AlphaEvolve의 실제 달성치는 과장되어 있다는 생각임
- 결국 이 내용은 컴파일러 중간 표현이나 디버그 텍스트 위에서 작동한다는 의미임
- 이 접근 방식은 평가 함수가 잘 정의되어 있거나 측정 가능한 최적화 문제에만 적용 가능함. ‘일반 지능’에 대한 평가 함수를 작성할 수는 없는 것임
- “AlphaEvolve는 Google의 데이터센터, 칩 설계, AI 트레이닝에 효율성을 높임 — 여기에는 AlphaEvolve를 탄생시킨 LLM 학습도 포함”이라는 문구가 인상적임. AI가 스스로 인간보다 더 빨리 자신을 개선하는 현실이 온 것처럼 느껴짐
- 특이점은 항상 과도한 자신감의 절정에 존재하며, AI는 실제로는 ‘자동화된 의자 리프트’ 같은 의사 지능임
- 흥미로운 점은 AlphaEvolve가 이미 1년 전부터 사용되고 있었고, 이제서야 공개됐다는 것임. 논문에 따르면 Gemini 2.0(Pro와 Flash) 기반으로 동작해서, Gemini 2.5를 학습하는 데 Gemini 2.0이 활용된 특이한 상황임. 전형적인 ‘자기 개선 피드백 루프’까지는 아니더라도 어느 정도 그 맥락을 보임. 1년 동안 AlphaEvolve가 개발만 됐는지, 제작부터 상용화까지 갔는지 궁금증이 남음. AI 연구에서 얻은 성과를 굳이 바로 공유하지 않을 필요가 있다는 점도 느껴짐
- 만약 충분한 두뇌, 컴퓨팅 자원, 하드웨어를 모두 가진다면 진짜 피드백 루프를 막을 수 있는 건 없어 보임. DeepMind가 이런 면에서 독보적인 위치에 있음
- Gemini 2.0을 이용해 Gemini 2.5를 향상시키는 과정은, 과거 OpenAI가 RLHF를 도입한 이래로 구조화된 데이터와 증류형 모델을 만들어내는 전략과 비슷함
- 핵심은 자율성임. 스스로 바꾼 변화가 인간 검증 없이도 가능해야 진짜 의미가 있음. 완전히 설명 불가한 솔루션이 늘어날 경우 실제로 도움이 되는지 의문임. 오히려 불필요하게 난해한 코드가 쌓일 수도 있음. 그런 게 목적일까 싶은 생각도 듦
- AlphaEvolve의 진화 절차에 대한 설명이 너무 적어서 놀랐음. “MAP elites 알고리즘과 island-based population model에 영감을 받은 알고리즘”이라는 문구에서 “영감을 받은”이 실제로 많은 부분을 의미함. MAP-elites의 변이 차원은 어떻게 정하는지, 두 알고리즘을 어떻게 결합하는지, 영감의 범위가 어느 정도인지 구체성이 부족함. 진화 절차의 핵심 내용이 사실상 비밀 소스로 남아있는 느낌임
- 2023년 Nature에 실린 island 기반 LLM 진화 논문(https://www.nature.com/articles/s41586-023-06924-6)이 더 자세하게 다루고 있음. 이런 핵심 ‘차원/피처’ 설정이 중요함. 이런 화이트페이퍼가 오히려 과학적으로는 실망일 수 있음
- 가장 간단한 방법은 모델에게 서로 다른 평가 기준을 생성하게 하고, 각각을 차원으로 쓰는 것임
- 논문에서 진화적 부분에 대한 설명이 부족함. 일반적으로 진화 알고리즘은 교배(크로스오버) 요소가 포함되는데, 이게 없다면 사실상 hill climbing이나 beam search에 가깝게 분류해야 함
- 한 캡션에서 16번의 “돌연변이”가 필요하다고 언급되었는데, 이런 돌연변이 과정이 궁금함
- 일반적인 돌연변이와 교배 없이 후보 집단을 이용해 기울기 지형을 근사하는 ‘진화적 전략’ 알고리즘도 있음
- 두려운 점은, 이게 진화 알고리즘이라기보다는 그저 이름만 비슷한 다른 방식일 가능성이 있다는 것임