3P by neo 8일전 | favorite | 댓글 1개
  • OpenAI의 o3 시스템이 ARC-AGI-1 공개 데이터셋에서 새로운 기록을 세움
    • Semi-Private Evaluation: 고효율 모드에서 75.7% 달성
    • 고비용 모드(172배 높은 연산량): 87.5% 기록
  • GPT 계열 모델의 한계를 넘어 새롭고 적응적인 작업 처리 능력을 보여주는 중요한 발전
  • GPT-3 (2020년) 0% → GPT-4o (2024년) 5% → o3로 75.7%까지 발전
  • ARC-AGI-1 결과는 AI 능력 향상에 대한 새로운 직관을 제시함

ARC Prize와 AGI 연구의 미래

  • ARC Prize는 AGI 연구의 지향점 역할을 목표로 함
  • 2025년 ARC-AGI-2 출시 예정:
    • 인간에게는 쉬우나 AI에게는 어려운 문제로 구성
    • 새로운 고효율, 오픈소스 솔루션 개발 목표
  • o3의 성과는 새로운 AGI 벤치마크 설계 필요성을 강조

OpenAI o3의 ARC-AGI 테스트 결과

테스트 데이터셋 및 방법

  • Semi-Private Eval: 과적합 방지 목적으로 사용된 비공개 작업 100개
  • Public Eval: 공개 작업 400개
  • 고효율(6 샘플) 및 저효율(1024 샘플) 두 가지 연산량 설정에서 테스트 진행

주요 성과 (고효율 vs 저효율)

  • Semi-Private Eval:
    • 고효율: 75.7% / $20 비용 / 작업당 1.3분 소요
    • 저효율: 87.5% / 작업당 13.8분 소요
  • Public Eval:
    • 고효율: 82.8% / $17 비용
    • 저효율: 91.5%

효율성과 성능의 관계

  • 고효율 점수는 ARC-AGI-Pub 기준 ($10,000 이하) 내에서 1위를 차지
  • 저효율 점수는 연산량 증가로 성능이 향상됨을 시사하지만 비용이 높음
  • o3는 단순한 연산량 증가로 달성된 성과가 아님. 근본적인 AI 적응 능력 개선

AGI에 대한 논의

ARC-AGI와 AGI의 차이점

  • ARC-AGI는 AI 일반화 능력을 평가하는 연구 도구
  • o3는 ARC-AGI에서 뛰어난 성과를 보였지만 AGI로 간주되기에는 미흡
    • 쉬운 작업에서 실패하는 경우가 존재
    • 향후 ARC-AGI-2에서는 점수가 30% 이하로 떨어질 가능성 존재

o3의 주요 차별점

  • 기존 GPT 모델 대비 새로운 작업 처리 및 적응 능력 개선
  • 자연어 프로그램 탐색 및 실행 방식 도입:
    • 테스트 중 작업을 해결하는 "사고 과정(Chain of Thought)"을 탐색
    • Monte-Carlo 트리 탐색 방식과 유사한 접근
    • 자연어 지침을 생성 및 실행하는 형태로 프로그램화

기존 GPT 모델과의 비교

  • 기존 GPT는 "저장 → 검색 → 적용" 방식으로 동작
  • 새로운 작업에 대한 적응력 부족이 한계였음
  • o3는 기존 기능을 재조합하여 새로운 작업에 적응할 수 있는 능력을 보유

향후 연구 방향

o3의 오픈소스 분석

  • ARC Prize는 고효율, 오픈소스 솔루션 개발을 목표로 함
  • o3 테스트 데이터 및 미해결 과제 공개:
    • 커뮤니티가 해결되지 않은 작업의 특성을 분석하도록 초대
    • Discord 채널 및 GitHub에서 논의 가능

다음 세대 벤치마크

  • ARC-AGI-2 개발 진행 중:
    • 2025년 1분기 말 출시 예정
    • 기존 ARC-AGI 형식에서 벗어난 완전히 새로운 설계
  • ARC Prize 재단은 AGI 연구를 위한 새로운 벤치마크 지속 개발 계획

결론

  • OpenAI o3는 GPT 계열의 한계를 넘어선 AI 적응 능력을 입증한 획기적 성과
  • LLM 주도의 자연어 프로그램 탐색 도입으로 새로운 영역을 개척
  • 앞으로 효율성과 성능의 균형을 맞추는 연구와 오픈소스화를 통한 협력 필요
Hacker News 의견
  • 효율성이 중요해짐. ARC-AGI-TUNED라는 용어를 사용하여 많은 컴퓨팅 자원이 사용되었음을 암시함. 인간이 ARC-AGI 퍼즐을 푸는 데 드는 비용과 비교할 때, 현재 컴퓨팅으로 인간 수준의 추론 비용이 상당히 높음.

  • 자연어 패턴 해독은 퍼즐보다 복잡함. AI가 퍼즐을 푸는 데 훈련되면, 외부 매체에 대한 훈련 데이터 생성이 어려움. 블록 패턴의 답을 최소한의 추가 훈련으로 추론하는 것은 인상적임.

  • o3-mini의 프로그래밍 과제는 그리 어렵지 않았음. Claude 3.5 Sonnet에게 과제를 주었더니 첫 시도에 성공했음.

  • Francois Chollet의 ARC는 매우 흥미롭고 도전적인 LLM 벤치마크임. 많은 사람들이 ARC가 진정한 추론을 나타내지 않는다고 비판했지만, ARC가 측정하는 것이 추론에 중요하다는 것을 증명함.

  • 인간의 성능은 85%이고 o3 high는 87.5%임. 이는 인간 수준의 성능을 달성할 수 있는 알고리즘이 있다는 것을 의미함. AGI가 가까워졌다고 느끼는 이유를 설명함.

  • o3는 AGI의 본질적인 측면을 포함하고 있음. ARC 문제 해결은 여러 핵심 지식을 사용하고 적절한 추상화 수준을 사용하는 것이 필요함.

  • o3 모델의 실행 비용은 매우 높음. 그러나 국가 차원에서는 경제적이지 않더라도 중요한 발전이 될 수 있음. 인간과 유사한 지능을 가진 AI가 수요에 따라 제공될 수 있다면, 그 영향은 예상보다 빨리 나타날 수 있음.

  • ARC-AGI는 AGI를 달성한 것은 아님. o3는 여전히 쉬운 작업에서 실패함. ARC-AGI-2 벤치마크는 여전히 o3에게 도전이 될 것임.

  • ARC나 어떤 벤치마크도 진정한 일반 지능과 혼동해서는 안 됨. 일반 지능은 상당한 회고의 이점으로만 식별할 수 있을 것임.