OpenAI O3, ARC-AGI-PUB에서 획기적 높

▲

GN⁺ 2024-12-21 | parent | ★ favorite | on: OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성(arcprize.org)

Hacker News 의견

효율성이 중요해짐. ARC-AGI-TUNED라는 용어를 사용하여 많은 컴퓨팅 자원이 사용되었음을 암시함. 인간이 ARC-AGI 퍼즐을 푸는 데 드는 비용과 비교할 때, 현재 컴퓨팅으로 인간 수준의 추론 비용이 상당히 높음.
자연어 패턴 해독은 퍼즐보다 복잡함. AI가 퍼즐을 푸는 데 훈련되면, 외부 매체에 대한 훈련 데이터 생성이 어려움. 블록 패턴의 답을 최소한의 추가 훈련으로 추론하는 것은 인상적임.
o3-mini의 프로그래밍 과제는 그리 어렵지 않았음. Claude 3.5 Sonnet에게 과제를 주었더니 첫 시도에 성공했음.
Francois Chollet의 ARC는 매우 흥미롭고 도전적인 LLM 벤치마크임. 많은 사람들이 ARC가 진정한 추론을 나타내지 않는다고 비판했지만, ARC가 측정하는 것이 추론에 중요하다는 것을 증명함.
인간의 성능은 85%이고 o3 high는 87.5%임. 이는 인간 수준의 성능을 달성할 수 있는 알고리즘이 있다는 것을 의미함. AGI가 가까워졌다고 느끼는 이유를 설명함.
o3는 AGI의 본질적인 측면을 포함하고 있음. ARC 문제 해결은 여러 핵심 지식을 사용하고 적절한 추상화 수준을 사용하는 것이 필요함.
o3 모델의 실행 비용은 매우 높음. 그러나 국가 차원에서는 경제적이지 않더라도 중요한 발전이 될 수 있음. 인간과 유사한 지능을 가진 AI가 수요에 따라 제공될 수 있다면, 그 영향은 예상보다 빨리 나타날 수 있음.
ARC-AGI는 AGI를 달성한 것은 아님. o3는 여전히 쉬운 작업에서 실패함. ARC-AGI-2 벤치마크는 여전히 o3에게 도전이 될 것임.
ARC나 어떤 벤치마크도 진정한 일반 지능과 혼동해서는 안 됨. 일반 지능은 상당한 회고의 이점으로만 식별할 수 있을 것임.