OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성

(arcprize.org)

3P by GN⁺ 2024-12-21 | ★ favorite | 댓글 1개

OpenAI의 o3 시스템이 ARC-AGI-1 공개 데이터셋에서 새로운 기록을 세움
- Semi-Private Evaluation: 고효율 모드에서 75.7% 달성
- 고비용 모드(172배 높은 연산량): 87.5% 기록
GPT 계열 모델의 한계를 넘어 새롭고 적응적인 작업 처리 능력을 보여주는 중요한 발전
GPT-3 (2020년) 0% → GPT-4o (2024년) 5% → o3로 75.7%까지 발전
ARC-AGI-1 결과는 AI 능력 향상에 대한 새로운 직관을 제시함

ARC Prize와 AGI 연구의 미래

ARC Prize는 AGI 연구의 지향점 역할을 목표로 함
2025년 ARC-AGI-2 출시 예정:
- 인간에게는 쉬우나 AI에게는 어려운 문제로 구성
- 새로운 고효율, 오픈소스 솔루션 개발 목표
o3의 성과는 새로운 AGI 벤치마크 설계 필요성을 강조

OpenAI o3의 ARC-AGI 테스트 결과

테스트 데이터셋 및 방법

Semi-Private Eval: 과적합 방지 목적으로 사용된 비공개 작업 100개
Public Eval: 공개 작업 400개
고효율(6 샘플) 및 저효율(1024 샘플) 두 가지 연산량 설정에서 테스트 진행

주요 성과 (고효율 vs 저효율)

Semi-Private Eval:
- 고효율: 75.7% / $20 비용 / 작업당 1.3분 소요
- 저효율: 87.5% / 작업당 13.8분 소요
Public Eval:
- 고효율: 82.8% / $17 비용
- 저효율: 91.5%

효율성과 성능의 관계

고효율 점수는 ARC-AGI-Pub 기준 ($10,000 이하) 내에서 1위를 차지
저효율 점수는 연산량 증가로 성능이 향상됨을 시사하지만 비용이 높음
o3는 단순한 연산량 증가로 달성된 성과가 아님. 근본적인 AI 적응 능력 개선

AGI에 대한 논의

ARC-AGI와 AGI의 차이점

ARC-AGI는 AI 일반화 능력을 평가하는 연구 도구
o3는 ARC-AGI에서 뛰어난 성과를 보였지만 AGI로 간주되기에는 미흡
- 쉬운 작업에서 실패하는 경우가 존재
- 향후 ARC-AGI-2에서는 점수가 30% 이하로 떨어질 가능성 존재

o3의 주요 차별점

기존 GPT 모델 대비 새로운 작업 처리 및 적응 능력 개선
자연어 프로그램 탐색 및 실행 방식 도입:
- 테스트 중 작업을 해결하는 "사고 과정(Chain of Thought)"을 탐색
- Monte-Carlo 트리 탐색 방식과 유사한 접근
- 자연어 지침을 생성 및 실행하는 형태로 프로그램화

기존 GPT 모델과의 비교

기존 GPT는 "저장 → 검색 → 적용" 방식으로 동작
새로운 작업에 대한 적응력 부족이 한계였음
o3는 기존 기능을 재조합하여 새로운 작업에 적응할 수 있는 능력을 보유

향후 연구 방향

o3의 오픈소스 분석

ARC Prize는 고효율, 오픈소스 솔루션 개발을 목표로 함
o3 테스트 데이터 및 미해결 과제 공개:
- 커뮤니티가 해결되지 않은 작업의 특성을 분석하도록 초대
- Discord 채널 및 GitHub에서 논의 가능

다음 세대 벤치마크

ARC-AGI-2 개발 진행 중:
- 2025년 1분기 말 출시 예정
- 기존 ARC-AGI 형식에서 벗어난 완전히 새로운 설계
ARC Prize 재단은 AGI 연구를 위한 새로운 벤치마크 지속 개발 계획

결론

OpenAI o3는 GPT 계열의 한계를 넘어선 AI 적응 능력을 입증한 획기적 성과
LLM 주도의 자연어 프로그램 탐색 도입으로 새로운 영역을 개척
앞으로 효율성과 성능의 균형을 맞추는 연구와 오픈소스화를 통한 협력 필요

GN⁺ 2024-12-21 [-]

Hacker News 의견

효율성이 중요해짐. ARC-AGI-TUNED라는 용어를 사용하여 많은 컴퓨팅 자원이 사용되었음을 암시함. 인간이 ARC-AGI 퍼즐을 푸는 데 드는 비용과 비교할 때, 현재 컴퓨팅으로 인간 수준의 추론 비용이 상당히 높음.
자연어 패턴 해독은 퍼즐보다 복잡함. AI가 퍼즐을 푸는 데 훈련되면, 외부 매체에 대한 훈련 데이터 생성이 어려움. 블록 패턴의 답을 최소한의 추가 훈련으로 추론하는 것은 인상적임.
o3-mini의 프로그래밍 과제는 그리 어렵지 않았음. Claude 3.5 Sonnet에게 과제를 주었더니 첫 시도에 성공했음.
Francois Chollet의 ARC는 매우 흥미롭고 도전적인 LLM 벤치마크임. 많은 사람들이 ARC가 진정한 추론을 나타내지 않는다고 비판했지만, ARC가 측정하는 것이 추론에 중요하다는 것을 증명함.
인간의 성능은 85%이고 o3 high는 87.5%임. 이는 인간 수준의 성능을 달성할 수 있는 알고리즘이 있다는 것을 의미함. AGI가 가까워졌다고 느끼는 이유를 설명함.
o3는 AGI의 본질적인 측면을 포함하고 있음. ARC 문제 해결은 여러 핵심 지식을 사용하고 적절한 추상화 수준을 사용하는 것이 필요함.
o3 모델의 실행 비용은 매우 높음. 그러나 국가 차원에서는 경제적이지 않더라도 중요한 발전이 될 수 있음. 인간과 유사한 지능을 가진 AI가 수요에 따라 제공될 수 있다면, 그 영향은 예상보다 빨리 나타날 수 있음.
ARC-AGI는 AGI를 달성한 것은 아님. o3는 여전히 쉬운 작업에서 실패함. ARC-AGI-2 벤치마크는 여전히 o3에게 도전이 될 것임.
ARC나 어떤 벤치마크도 진정한 일반 지능과 혼동해서는 안 됨. 일반 지능은 상당한 회고의 이점으로만 식별할 수 있을 것임.

답변달기

OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성

ARC Prize와 AGI 연구의 미래

OpenAI o3의 ARC-AGI 테스트 결과

테스트 데이터셋 및 방법

주요 성과 (고효율 vs 저효율)

효율성과 성능의 관계

AGI에 대한 논의

ARC-AGI와 AGI의 차이점

o3의 주요 차별점

기존 GPT 모델과의 비교

향후 연구 방향

o3의 오픈소스 분석

다음 세대 벤치마크

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견