GN⁺: OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성
(arcprize.org)- OpenAI의 o3 시스템이 ARC-AGI-1 공개 데이터셋에서 새로운 기록을 세움
- Semi-Private Evaluation: 고효율 모드에서 75.7% 달성
- 고비용 모드(172배 높은 연산량): 87.5% 기록
- GPT 계열 모델의 한계를 넘어 새롭고 적응적인 작업 처리 능력을 보여주는 중요한 발전
- GPT-3 (2020년) 0% → GPT-4o (2024년) 5% → o3로 75.7%까지 발전
- ARC-AGI-1 결과는 AI 능력 향상에 대한 새로운 직관을 제시함
ARC Prize와 AGI 연구의 미래
- ARC Prize는 AGI 연구의 지향점 역할을 목표로 함
- 2025년 ARC-AGI-2 출시 예정:
- 인간에게는 쉬우나 AI에게는 어려운 문제로 구성
- 새로운 고효율, 오픈소스 솔루션 개발 목표
- o3의 성과는 새로운 AGI 벤치마크 설계 필요성을 강조
OpenAI o3의 ARC-AGI 테스트 결과
테스트 데이터셋 및 방법
- Semi-Private Eval: 과적합 방지 목적으로 사용된 비공개 작업 100개
- Public Eval: 공개 작업 400개
- 고효율(6 샘플) 및 저효율(1024 샘플) 두 가지 연산량 설정에서 테스트 진행
주요 성과 (고효율 vs 저효율)
-
Semi-Private Eval:
- 고효율: 75.7% / $20 비용 / 작업당 1.3분 소요
- 저효율: 87.5% / 작업당 13.8분 소요
-
Public Eval:
- 고효율: 82.8% / $17 비용
- 저효율: 91.5%
효율성과 성능의 관계
- 고효율 점수는 ARC-AGI-Pub 기준 ($10,000 이하) 내에서 1위를 차지
- 저효율 점수는 연산량 증가로 성능이 향상됨을 시사하지만 비용이 높음
- o3는 단순한 연산량 증가로 달성된 성과가 아님. 근본적인 AI 적응 능력 개선
AGI에 대한 논의
ARC-AGI와 AGI의 차이점
- ARC-AGI는 AI 일반화 능력을 평가하는 연구 도구
- o3는 ARC-AGI에서 뛰어난 성과를 보였지만 AGI로 간주되기에는 미흡
- 쉬운 작업에서 실패하는 경우가 존재
- 향후 ARC-AGI-2에서는 점수가 30% 이하로 떨어질 가능성 존재
o3의 주요 차별점
- 기존 GPT 모델 대비 새로운 작업 처리 및 적응 능력 개선
- 자연어 프로그램 탐색 및 실행 방식 도입:
- 테스트 중 작업을 해결하는 "사고 과정(Chain of Thought)"을 탐색
- Monte-Carlo 트리 탐색 방식과 유사한 접근
- 자연어 지침을 생성 및 실행하는 형태로 프로그램화
기존 GPT 모델과의 비교
- 기존 GPT는 "저장 → 검색 → 적용" 방식으로 동작
- 새로운 작업에 대한 적응력 부족이 한계였음
- o3는 기존 기능을 재조합하여 새로운 작업에 적응할 수 있는 능력을 보유
향후 연구 방향
o3의 오픈소스 분석
- ARC Prize는 고효율, 오픈소스 솔루션 개발을 목표로 함
- o3 테스트 데이터 및 미해결 과제 공개:
- 커뮤니티가 해결되지 않은 작업의 특성을 분석하도록 초대
- Discord 채널 및 GitHub에서 논의 가능
다음 세대 벤치마크
- ARC-AGI-2 개발 진행 중:
- 2025년 1분기 말 출시 예정
- 기존 ARC-AGI 형식에서 벗어난 완전히 새로운 설계
- ARC Prize 재단은 AGI 연구를 위한 새로운 벤치마크 지속 개발 계획
결론
- OpenAI o3는 GPT 계열의 한계를 넘어선 AI 적응 능력을 입증한 획기적 성과
- LLM 주도의 자연어 프로그램 탐색 도입으로 새로운 영역을 개척
- 앞으로 효율성과 성능의 균형을 맞추는 연구와 오픈소스화를 통한 협력 필요
Hacker News 의견
-
효율성이 중요해짐. ARC-AGI-TUNED라는 용어를 사용하여 많은 컴퓨팅 자원이 사용되었음을 암시함. 인간이 ARC-AGI 퍼즐을 푸는 데 드는 비용과 비교할 때, 현재 컴퓨팅으로 인간 수준의 추론 비용이 상당히 높음.
-
자연어 패턴 해독은 퍼즐보다 복잡함. AI가 퍼즐을 푸는 데 훈련되면, 외부 매체에 대한 훈련 데이터 생성이 어려움. 블록 패턴의 답을 최소한의 추가 훈련으로 추론하는 것은 인상적임.
-
o3-mini의 프로그래밍 과제는 그리 어렵지 않았음. Claude 3.5 Sonnet에게 과제를 주었더니 첫 시도에 성공했음.
-
Francois Chollet의 ARC는 매우 흥미롭고 도전적인 LLM 벤치마크임. 많은 사람들이 ARC가 진정한 추론을 나타내지 않는다고 비판했지만, ARC가 측정하는 것이 추론에 중요하다는 것을 증명함.
-
인간의 성능은 85%이고 o3 high는 87.5%임. 이는 인간 수준의 성능을 달성할 수 있는 알고리즘이 있다는 것을 의미함. AGI가 가까워졌다고 느끼는 이유를 설명함.
-
o3는 AGI의 본질적인 측면을 포함하고 있음. ARC 문제 해결은 여러 핵심 지식을 사용하고 적절한 추상화 수준을 사용하는 것이 필요함.
-
o3 모델의 실행 비용은 매우 높음. 그러나 국가 차원에서는 경제적이지 않더라도 중요한 발전이 될 수 있음. 인간과 유사한 지능을 가진 AI가 수요에 따라 제공될 수 있다면, 그 영향은 예상보다 빨리 나타날 수 있음.
-
ARC-AGI는 AGI를 달성한 것은 아님. o3는 여전히 쉬운 작업에서 실패함. ARC-AGI-2 벤치마크는 여전히 o3에게 도전이 될 것임.
-
ARC나 어떤 벤치마크도 진정한 일반 지능과 혼동해서는 안 됨. 일반 지능은 상당한 회고의 이점으로만 식별할 수 있을 것임.