- 인간 엔지니어링 의존도를 줄이기 위해 자기 자신의 학습과 문제 해결 과정을 스스로 개선하는 자기 참조형 AI 에이전트 시스템으로, 기존 재귀적 자기 개선 방식의 고정된 메타 메커니즘 한계를 극복
- 태스크 에이전트(목표 과제 수행)와 메타 에이전트(자기 자신과 태스크 에이전트를 수정)를 하나의 편집 가능한 프로그램으로 통합하는 구조
- 기존 Darwin Gödel Machine(DGM)은 코딩 영역에서만 자기 개선이 가능했으나, HyperAgents는 코딩·논문 리뷰·로보틱스·수학 채점 등 다양한 도메인으로 확장
- 메타 수준의 수정 절차 자체도 편집 가능하여, 개선 메커니즘을 개선하는 메타인지적 자기 수정이 핵심 차별점
- 메타 수준 개선이 도메인 간 전이 및 실행 간 누적되는 특성을 실험적으로 확인, 범용 자기 가속 AI 시스템의 가능성을 보여주는 연구
기존 자기 개선 시스템의 한계
- 자기 개선 AI 시스템은 인간 엔지니어링 의존도를 줄이기 위해 학습 및 문제 해결 과정 자체를 자동으로 개선하는 것이 목표
- 기존 재귀적 자기 개선 접근법은 고정되고 수작업으로 만든 메타 수준 메커니즘에 의존하기 때문에, 시스템이 개선될 수 있는 속도에 근본적 한계 존재
Darwin Gödel Machine(DGM)과 코딩 영역 제약
-
DGM(Zhang et al., 2025b)은 코딩 영역에서 개방형 자기 개선이 가능함을 입증한 시스템
- 단일 코딩 에이전트에서 시작하여 자기 수정된 변형을 반복적으로 생성하고 평가하며, 미래 개선을 위한 디딤돌 아카이브를 확장하는 방식
- 평가와 자기 수정 모두 코딩 작업이기 때문에, 코딩 능력 향상이 자기 개선 능력 향상으로 직결
- 그러나 이러한 도메인 정렬(domain-specific alignment) 은 코딩 이외의 영역에서는 일반적으로 성립하지 않는다는 한계 존재
HyperAgents 프레임워크 구조
- HyperAgents는 자기 참조적 에이전트(self-referential agent) 로, 두 가지 구성 요소를 단일 편집 가능 프로그램에 통합
-
태스크 에이전트(task agent): 목표 과제를 해결하는 역할
-
메타 에이전트(meta agent): 자기 자신과 태스크 에이전트를 수정하는 역할
- 핵심적으로, 메타 수준의 수정 절차 자체가 편집 가능하여 메타인지적 자기 수정(metacognitive self-modification) 구현
- 과제 해결 행동뿐 아니라 미래 개선을 생성하는 메커니즘 자체도 개선 가능
DGM-Hyperagents(DGM-H)
- DGM을 확장하여 DGM-Hyperagents(DGM-H) 로 구체화
- 개선 절차 자체가 진화할 수 있도록 허용함으로써, 과제 성능과 자기 수정 능력 간의 도메인 특화 정렬 가정을 제거
- 이론적으로 어떤 계산 가능한 과제에서든 자기 가속 진보를 지원할 수 있는 가능성 확보
실험 결과 및 도메인 범위
- 코딩, 논문 리뷰, 로보틱스 보상 설계, 올림피아드 수준 수학 풀이 채점 등 다양한 도메인에서 실험 수행
- DGM-H는 시간이 지남에 따라 성능이 지속적으로 향상
- 자기 개선이나 개방형 탐색이 없는 베이스라인, 그리고 기존 DGM 대비 우수한 성능 달성
메타 수준 개선의 전이 및 누적
- DGM-H는 새로운 에이전트를 생성하는 프로세스 자체를 개선하는 것으로 확인
- 예: 영속적 메모리(persistent memory), 성능 추적(performance tracking) 등의 메타 수준 개선 도출
- 이러한 메타 수준 개선은 도메인 간 전이(transfer across domains) 가 가능하며, 실행 간 누적(accumulate across runs) 되는 특성 보유
안전성 고려
- 모든 실험은 샌드박싱, 인간 감독 등 안전 예방 조치 하에 수행
- 자기 개선 시스템 맥락에서 안전성이 의미하는 바와 자기 개선 시스템의 광범위한 함의에 대한 논의 포함
의의
- DGM-Hyperagents는 더 나은 해결책을 단순히 탐색하는 것이 아니라, 개선 방법 자체를 지속적으로 개선하는 개방형 AI 시스템의 가능성을 제시