AlphaEvolve: 여러 분야로 영향력을 확장하는

▲

GN⁺ 3시간전 | parent | ★ favorite | on: AlphaEvolve: 여러 분야로 영향력을 확장하는 Gemini 기반 코딩 에이전트(deepmind.google)

Hacker News 의견들

Antirez의 "Don't fall into the anti-AI hype" [0]가 떠오름
한 줄로 요약하면, 이런 기반 모델은 “행렬 곱을 더 빠르게 하라”처럼 매우 고수준이면서도 매우 잘 정의된 문제 공간을 최적화하는 데 정말 강함. Antirez의 경우는 “Redis를 더 빠르게 하라”였음
반응은 “내 일에는 절대 안 통할 것”과 “몇 달 걸릴 일을 한 시간 만에 끝냈다”로 갈렸고, 둘 다 맞다고 봄. Antirez가 이후에도 성과를 내는 건 기뻐할 만하지만 [1], 대부분의 사람이 하는 암묵지 많고 인간 시스템 중심이며 모호하게 정의된 일은 LLM이 다루기 어렵거나 애초에 그런 용도가 아니었을 수 있다고 봐도 된다고 생각함
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
- 솔직히 이제는 그렇게 믿지 않음. 모델들이 모호성을 꽤 잘 다루기 시작했고, Claude Code는 모호한 부분이 있으면 이제 나에게 질문함
  곧 모든 회의가 녹음·전사되어 에이전트가 모호함을 마주했을 때 검색할 수 있는 잘 색인된 장소에 저장될 것임. 지금 질문할 수 있다면, 그런 환경이 갖춰졌을 때 스스로 답을 검색할 수도 있게 됨. 사실 문서화가 잘 된 Notion/Confluence가 있으면 이미 그렇게 하며, 다만 그런 조직이 거의 없을 뿐임
  “모호성 식별”을 강화학습시키는 건 성능 알고리즘을 강화학습시키는 것보다 어렵겠지만 불가능하지 않고 이미 진행 중이라고 봄. 이제 시간 문제임
- Claude 등은 내가 생각한 알고리즘을 빠르게 구현하는 데 꽤 좋았음. 다만 통제 질문을 많이 하고 코드를 확인해야 함
  비주류 알고리즘을 새로 발명하는 데는 약하고, 어이없을 정도로 단기적인 지름길을 끼워 넣는 경우가 잦음. 아직은 도구이지 도구를 능숙하게 다루는 장인은 아님. 이건 점차 바뀔 것이고, 드문 알고리즘이 이기는 구석도 더 줄어들 것임
- 결국 요인은 둘 중 하나처럼 보임: “놀랍다, 효율을 1% 개선했다” 또는 “멍청하게도 환각 API를 디버깅하느라 한 시간을 날렸다”
  평균적으로 어느 쪽이 이길지 판단하기가 정말 어려움
- AI 보조 연구가 AI를 LLM 너머로 밀어 올리면 어떨까? 그런 일이 일어날 수 없다고 보는 건가?
- “LLM이 암묵지 많고 인간 시스템 중심이며 모호하게 정의된 일을 못 한다”는 말은 2030년쯤이면 굉장히 근시안적으로 보일 가능성이 큼
AI CEO들은 AI가 암을 치료할 거라며 장광설을 늘어놓기 좋아하지만, 실제로 그런 연구 문제에 적극적으로 매달리는 곳은 DeepMind뿐인 것 같음
OpenAI와 Anthropic은 대체로 기업 매출과 코딩 매출을 좇는 쪽으로 보임
- Google은 전쟁자금으로 자체 조달이 가능하지만, OpenAI와 Anthropic은 투자자에게 손 벌리는 처지임
Googler들은 Claude Code나 Codex 대신 Gemini 코딩 에이전트를 쓰는 걸 만족해하나? 비꼬는 게 아니라 정말 궁금함
- 그렇다. 모델은 좋고 빠르며, 내부 도구도 이제 따라잡았음
  아직 UI/UX/도구 쪽에서 정리 중인 부분, 버전 관리 시스템 연동, 말하기 어려운 더 깊은 문제들이 있지만, 대부분의 불만은 실제 능력보다 변화 속도에 더 가깝다고 봄
  흥미로운 건 내부에서 영향력 있는 여러 사람이 Pro 모델보다 Flash 모델을 더 선호한다고 강하게 말한다는 점임. 이게 사실인지와 별개로, 이제 “더 나은” 모델이 반드시 더 유용한 건 아니며, 더 빠른 모델과 하네스 개선을 조합하는 쪽이 더 나은 절충일 수 있는 단계에 왔다는 게 흥미로움
- Gemini VS Code Extension을 말하는 거라면 Claude Code나 Codex에 비해 형편없음. 어떻게 이 상태로 운영되는지 모르겠음
  계속되는 시간 초과, 이상한 실패 모드, 모드를 바꾸려면 새 채팅을 시작해야 하는 문제 등이 있음. 다만 이건 Gemini 모델 자체의 문제라기보다는 확장 프로그램 문제로 보임
  VS Code 확장 측면을 빼고 실제 문제 해결만 보면, 세 프리미어 모델 모두 내 용도에는 훌륭한 코딩 에이전트임
- 코딩은 Gemini나 이런 모델들의 유일한 용도가 아님. 이 글이 다루는 것도 코딩이 아님
  Gemini가 최고의 코딩 에이전트가 아닐 수는 있지만, 다른 일에는 매우 좋을 수 있음
- 지난달 Steve Yegge는 그렇지 않다고 시사했음: https://xcancel.com/Steve_Yegge/status/2043747998740689171
- Google에 있는 사람들과 이야기해 보면, 대부분 내부 Gemini 에이전트에 불만이 있었고 최근 들어 상당히 나빠졌다고 보는 듯함
  도구 호출 방법을 완전히 잊고 한참 시간을 낭비하다가 결국 포기하거나, AGENTS.md 비슷한 파일의 코드 스타일 지침을 완전히 무시하는 식임
  Gemma 4를 로컬에서 돌린 내 경험도 비슷했음. 도구 호출을 한두 번 한 뒤에는 제멋대로 호출하기 시작함. 바로 어제도 read_file(start, end) 같은 도구를 read_file(start, number_of_bytes)로 재정의해 놓고, 자신이 틀렸다는 가능성조차 인정하지 않는 걸 봄
AI가 스스로, 또는 적어도 자신이 돌아가는 아키텍처를 개선한다면 사람들이 말하듯 특이점이 가까운 셈임
합성 데이터 생성이나 모델 테스트 외에, AI가 LLM을 개선하는 데 쓰인 다른 사례가 있을까?
- AI가 스스로를 더 유능하게 만드는 것과, AI 학습·추론에 쓰이는 소프트웨어를 최적화하는 것은 사과와 오렌지만큼 다름
  더 효율적인 트랜스포머는 실행 비용을 낮출 뿐임
  “AI가 AI를 개선한다”라고 하려면 한 세대의 AI가 자신보다 근본적으로 더 유능한 차세대 AI를 설계해야 함. 단지 더 빠르거나 싸게 만드는 게 아니라, 파충류 뇌가 포유류 뇌를 자율적으로 설계하는 수준이어야 함
  AlphaEvolve 같은 똑똑한 하네스에 연결해도, LLM에 그런 창의성이 있다고 보지는 않음. 다만 차세대 아키텍처가 LLM이 예측하도록 유도할 수 있는 부품 조합으로 뻔히 숨어 있다면 예외일 수 있음
  더 가능성 높은 경로는 AGI를 향한 인간 혁신이 몇 단계 더 진행된 뒤, 프롬프트 기반 조합 생성이 아니라 자율 혁신을 할 수 있는 AI가 나오는 것임
- 있음. 작년에 AlphaEvolve를 공개했을 때 이전 Gemini 모델로 이번 세대 모델 학습에 쓰이는 커널을 개선했고, 학습 실행을 1% 빠르게 만들었음. 크지는 않지만 그래도 성과임
- 최근 가장 바이럴된 건 https://github.com/karpathy/autoresearch 같음
- 자기 개선이 꼭 특이점을 뜻하지는 않지 않나?
  특이점을 불가능하게 만들 정도의 강한 제약이 있을 수도 있고, 시간 지평이 너무 길어서 실용적이지 않을 수도 있지 않나?
- “AI가 스스로 개선한다”는 건 개인적으로 2027년에 봐야 할 지점이라고 생각함
  모든 대형 AI 연구소가 연구 에이전트, 특히 AI 개선을 위한 에이전트 프로젝트를 크게 진행 중이고, 올해 그중 상당수가 실험 단계를 벗어날 것으로 예상함
  내년에는 실제로 많은 일을 하게 될 것이고, AI가 공동 발명한 첫 번째 큰 유효 아키텍처 변화가 나올 거라고 봄
Erdős 문제 얘기를 또 몇 번이나 들어야 하나 :) 처음엔 인류의 대단한 성취처럼 들리지만, 시간이 지나면 계속 다시 돌아옴
- 아직 열린 Erdős 문제가 700개 정도밖에 안 남았으니, 전부 풀리면 드디어 쉴 수 있음
그 와중에 Gemini CLI는 몇 달째 망가져 있음
https://github.com/google-gemini/gemini-cli/issues/22141
Google이 Gemini 3.x 모델을 정식 출시하는 데 집중하고, 429 오류와 계속 싸우지 않아도 될 만큼 충분한 용량을 제공해 줬으면 함
Vertex API로 기업 고객용 애플리케이션을 개발하지 말라는 것처럼 느껴질 때가 많음. 문서 분석 등에서 모델이 정말 훌륭했던 걸 생각하면 아쉬움이 큼
- 무료 요금제에서 하는 건가? 무료 요금제에서는 429를 훨씬 더 많이 내는 걸 봤음
모든 *Evolve 논문은 결과가 매우 인상적이지만, 공개된 정보를 살펴보며 느낀 건 관심이 LLM과 AI 쪽에 쏠린다는 점임
그런데 보고된 성과는 거의 항상 LLM과 진화 알고리즘이 잘 작동하도록 매우 잘 설계된 환경의 결과임
이 논문이 그 좋은 예이고 읽어볼 만함
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
알고리즘 개선을 위한 굉장히 단순한 해법임. 활성화 엔지니어링을 하던 몇 년 전에 이런 게 있었으면 좋았겠음: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
AlphaEvolve에는 어떻게 접근할 수 있나?
- 그냥 과시용 글임. 10억 달러 회사가 되거나 아니면 나가라는 뜻임
Claude에서 느낀 문제는 간단한 작업에도 코드와 산출물을 지나치게 부풀려 내고, 때로는 작동하지도 않는다는 점임
Gemini는 작동하는 해법을 딱 필요한 만큼의 코드와 최소 복잡도로 제공해서 관리하기 더 쉬운 균형을 꽤 잘 맞춤
요즘 Claude를 찾는 건 프런트엔드 코드, 특히 HTML 정도임. 여기서도 CSS 코드가 너무 많아 파일 크기의 60%쯤을 차지하지만, 그래도 조금 더 다듬어진 느낌을 주기 때문에 파일 크기가 커지는 건 감수하고 있음