ARC-AGI-3 - 최초의 대화형 추론 벤치마크

(arcprize.org)

1P by GN⁺ 1달전 | ★ favorite | 댓글 1개

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 최초의 상호작용형 추론 벤치마크로, 환경 탐색과 적응 학습 능력을 평가함
모든 과제는 인간이 해결 가능한 환경으로 구성되며, 시간에 따른 기술 습득 효율성과 장기 계획 능력을 측정함
사전 지식 없이 명확한 목표와 피드백을 제공하며, 암기식 접근을 방지하는 참신한 과제 구조를 유지함
리플레이 시각화, 개발자 툴킷, 평가용 UI를 통해 에이전트의 행동과 추론 과정을 투명하게 검증 가능함
공개 게임 세트와 문서, SDK, 커뮤니티 채널을 통해 ARC Prize 2026 대회 참여 및 에이전트 테스트를 지원함

ARC-AGI-3 개요

ARC-AGI-3는 AI 에이전트의 인간 수준 지능을 측정하기 위한 상호작용형 추론 벤치마크로 설계됨
- 에이전트가 새로운 환경을 탐색하고 목표를 파악하며, 적응 가능한 세계 모델을 구축하고 지속적으로 학습하는 능력을 평가
- 100% 점수는 AI가 모든 게임을 인간만큼 효율적으로 해결함을 의미
- 정적인 퍼즐 풀이가 아닌, 환경 내 경험을 통해 학습하고 전략을 조정해야 함
- 자연어 지시 없이 지각, 행동 선택, 전략 적응을 수행해야 함

주요 기능

재생 가능한 실행(run), 에이전트 통합용 개발자 툴킷, 투명한 평가용 UI 포함
리플레이 및 평가
- 에이전트의 행동을 리플레이 형태로 시각화하여 의사결정, 행동, 추론 과정을 시간 순서대로 추적 가능
- 샘플 리플레이 제공
툴 및 UI
- ARC-AGI-3 툴킷을 통해 에이전트를 통합하고, 인터랙티브 UI로 테스트 및 반복 수행 가능
- Play and test 링크를 통해 직접 실행 가능
문서
- 환경 구성, API 사용법, 통합 가이드 등 에이전트 구축에 필요한 문서 제공
- 문서 페이지에서 접근 가능

관련 자료 및 커뮤니티

Public Game Set: 공개 게임 세트
Docs + SDK: 개발 문서 및 SDK
ARC Prize 2026 Track: 2026년 대회 트랙
Technical Paper: 기술 보고서
참가자는 다양한 게임 환경(ar25, bp35, ls20 등)을 선택해 자신의 에이전트를 테스트 가능
공식 커뮤니티 채널로 Discord, Twitter, YouTube, GitHub 운영
ARC Prize 2026을 통해 공식 대회 및 업데이트 소식 구독 가능

▲

GN⁺ 1달전 [-]

Hacker News 의견들

scaling01의 트윗을 보면 ARC-AGI-3의 여러 평가 방식 문제가 지적되어 있음
인간 기준점이 ‘두 번째로 빠른 인간’으로 정의되어 있고, 점수는 단순 성공률이 아니라 효율성 제곱값으로 계산됨
즉, 인간이 10단계로 푼 문제를 모델이 100단계로 풀면 1% 점수만 받는 식임
또한 100%는 모든 레벨이 풀렸음을 의미할 뿐, 인간 수준을 의미하지 않음
이런 설계는 모델이 인간 수준이어도 100%를 받지 못하게 되어 있음
프롬프트는 단순하고, 모델은 인간보다 5배 이상 많은 스텝을 쓸 수 없음
후반 레벨에 가중치를 더 둔 것도 지속 학습을 감지하려는 의도라고 함
- 이런 점들이 문제라기보다는 오히려 올바른 접근 방식처럼 느껴짐. ARC-AGI에 대한 인상이 오히려 좋아졌음
- 프롬프트가 단순한 건 Kaggle 대회에서 해결할 부분임. 최신 LLM을 연결하면 GPU 제한이 있는 참가자보다 훨씬 잘할 것임
- 인간 기준 정의는 원래 임의적일 수밖에 없음. 어차피 ‘평균 인간’은 문맹이거나 이미 사망한 존재임
- 사실 이런 설계가 합리적임. 대부분의 사람보다 상위 80%에 드는 건 쉽고, 95% 이상도 동기부여만 있으면 가능함
- 오히려 이런 방식이 LLM에게 훨씬 더 어려운 테스트를 만들어서, 현재 점수가 더 인상적으로 보이게 함
“AI와 인간 학습 사이에 격차가 있는 한 AGI는 아니다”라는 말에 대해, 90년대 Deep Blue 시절의 비유가 떠오름
“비행기가 새처럼 날개를 퍼덕이지 않는다고 해서 날지 않는 건 아니다”라는 말처럼, 인간과 다른 방식으로 학습한다고 해서 지능이 부정되는 건 아님
- 이 격차는 단순한 철학 문제가 아니라 경제적 파급력의 문제임. 격차가 0이 되면 인간 지식노동이 완전히 대체됨. 심지어 완전한 AGI가 없어도 경제는 붕괴할 수 있음
- Dijkstra의 글(EWD867)을 떠올림. “컴퓨터가 생각할 수 있는가?”는 “잠수함이 수영할 수 있는가?”만큼 무의미하다는 비유임
- AGI의 ‘G’는 General을 뜻하지만, 인간도 전반적이지 않음. 비행기는 새보다 다재다능하지 않지만 이동성을 확장시킴
- 나로서는 AGI 논쟁은 이미 끝난 주제임. 지금의 도구들만으로도 충분히 유용하고, 이미 ASI(자기개선형 지능) 조짐도 보임. ARC-AGI 대회는 단지 현황을 측정하는 흥미로운 실험임
- 지능은 인간형만 존재하지 않음. 중요한 건 출력의 유용성임. 다만 의식 여부는 도덕적 문제로, 증명할 수 없으니 일단 의식이 있다고 가정해야 한다는 입장임
ARC의 접근은 매우 훌륭한 AGI 평가 방식이라 생각함
인간과 AI에 동일한 입력을 주고 결과를 비교하는 단순한 구조임
‘General’이라는 단어가 핵심이며, ARC는 바로 그 범용성을 측정하려는 시도임
AI가 유용한지 아닌지는 부차적임. 이 테스트는 지금까지 중 가장 설득력 있는 시도임
또한 자신의 전문 분야 질문을 AI에게 던져보면, 종종 틀린 답을 내는 걸 볼 수 있음. 우리는 지식과 지능을 혼동하는 경향이 있음
- ‘General’이란 표현이 틀렸다고 생각함. 인간도 전반적이지 않고, 들쭉날쭉한 능력을 가짐. 언어는 LLM이 이미 인간을 능가함
- 이 테스트는 시각적 인식이 필요한 게임이라, 맹인에게 운전시험을 보는 것과 비슷함. 게임을 텍스트로 바꾸면 LLM이 인간보다 잘할 수도 있음
- 이전 ARC-AGI는 IQ 테스트 같았는데, 이번 버전은 너무 쉬움. LLM이 못 푸는 건 입력 형식 불일치 때문일 가능성이 큼. 텍스트 기반 게임 학습만 해도 곧 해결될 것 같음
이런 벤치마크를 보면 드는 의문은, OpenAI가 사람을 고용해 데이터셋을 만들지 막을 방법이 있느냐는 것임
- 중요한 질문은 그게 아니라 “모델이 일반화할 수 있는가?”임. ARC-AGI는 시각적 장기 문맥 문제 해결과 에이전시를 평가하도록 설계된 듯함
여러 레벨을 직접 해보니 확실히 나는 AGI가 아님을 깨달음
- NGI, 즉 Natural General Intelligence라고 불러야겠음
- 다만 AI는 인터넷 전체에 접근할 수 있고, 시간 제한도 없으며, 수많은 오답을 제출해도 부끄럽지 않음. 이런 조건은 인간 시험과는 전혀 다름
- “AGI 기준을 낮춰줘서 고맙다”는 농담도 들음
나는 약간 회의적임
게임에 익숙한 사람은 100% 통과하겠지만, 컴퓨터를 처음 쓰는 할머니는 완전히 실패할 것임. LLM도 마찬가지임
결국 이런 게임 데이터로 학습된 모델은 쉽게 적응할 것이고, 그건 AGI가 아님
- 하지만 인간도 학습을 통해 게임을 잘하게 되므로, 온라인 학습이 허용되지 않는 한 이 테스트는 인간식 학습을 반영하지 못함
- 나도 40년차 게이머로서 이런 퍼즐은 너무 쉬웠음. 규칙만 파악하면 바로 풀림. 이런 류의 문제는 내 전문 영역임
YC 런치 이벤트에서 이 프로젝트를 직접 봤는데, 오랜만에 영감을 받았음
ARC2를 실험하던 사람이 로봇 팔을 더 효율적으로 움직이는 방법을 발견했다는 얘기도 들음
단순히 점수를 올리는 과정이 실제 로보틱스 혁신으로 이어진 셈임
ARC-4, 5, 6도 나올 예정이며, 앞으로는 제로 컨텍스트에서 문제를 해결하는 모델을 기대한다고 함
- 하지만 이런 식의 확장은 결국 기준점 이동(goalpost moving) 처럼 보이기도 함
ARC-AGI가 AGI와 직접 관련 있는지는 모르겠음
결국 특정 유형의 게임에서 LLM의 성능을 측정하는 것일 뿐임
인간이 그 게임을 잘하든 못하든, 이미 컴퓨터가 인간을 압도하는 게임은 많음
따라서 중요한 건 이 게임들이 지능의 대표성을 가지느냐는 점임
- ARC-AGI의 창시자 Chollet은 지능을 “처음 보는 상황에서 얼마나 잘 작동하는가”로 정의함. ARC-AGI는 바로 그 능력을 측정함
- 하지만 ‘AGI’는 마케팅 용어에 가깝고, 이런 벤치마크는 실제 업무 효율보다는 홍보용임
나는 이 게임의 인간 테스터였음
90분 동안 25개 게임을 풀었고, 지시사항에는 행동 수를 최소화하라고 되어 있었지만, 실제로는 속도 보상($5/게임) 때문에 빠르게 푸는 데 집중했음
그래서 인간 기준 데이터는 실제보다 행동 수가 많게 기록되었을 가능성이 큼
ARC-AGI 리더보드에서 가장 마음에 드는 점은 비용 대비 성능 그래프임
최근의 AI 성능 향상은 대부분 전력 소비 증가와 함께 옴. 결국 더 많은 전기를 쓰면 더 나은 결과를 얻을 수 있음

답변달기

ARC-AGI-3 - 최초의 대화형 추론 벤치마크

ARC-AGI-3 개요

주요 기능

리플레이 및 평가

툴 및 UI

문서

관련 자료 및 커뮤니티

함께 보면 좋은 글 β

Hacker News 의견들