ARC-AGI-3 - 최초의 대화형 추론 벤치마크

▲

GN⁺ 1달전 | parent | ★ favorite | on: ARC-AGI-3 - 최초의 대화형 추론 벤치마크(arcprize.org)

Hacker News 의견들

scaling01의 트윗을 보면 ARC-AGI-3의 여러 평가 방식 문제가 지적되어 있음
인간 기준점이 ‘두 번째로 빠른 인간’으로 정의되어 있고, 점수는 단순 성공률이 아니라 효율성 제곱값으로 계산됨
즉, 인간이 10단계로 푼 문제를 모델이 100단계로 풀면 1% 점수만 받는 식임
또한 100%는 모든 레벨이 풀렸음을 의미할 뿐, 인간 수준을 의미하지 않음
이런 설계는 모델이 인간 수준이어도 100%를 받지 못하게 되어 있음
프롬프트는 단순하고, 모델은 인간보다 5배 이상 많은 스텝을 쓸 수 없음
후반 레벨에 가중치를 더 둔 것도 지속 학습을 감지하려는 의도라고 함
- 이런 점들이 문제라기보다는 오히려 올바른 접근 방식처럼 느껴짐. ARC-AGI에 대한 인상이 오히려 좋아졌음
- 프롬프트가 단순한 건 Kaggle 대회에서 해결할 부분임. 최신 LLM을 연결하면 GPU 제한이 있는 참가자보다 훨씬 잘할 것임
- 인간 기준 정의는 원래 임의적일 수밖에 없음. 어차피 ‘평균 인간’은 문맹이거나 이미 사망한 존재임
- 사실 이런 설계가 합리적임. 대부분의 사람보다 상위 80%에 드는 건 쉽고, 95% 이상도 동기부여만 있으면 가능함
- 오히려 이런 방식이 LLM에게 훨씬 더 어려운 테스트를 만들어서, 현재 점수가 더 인상적으로 보이게 함
“AI와 인간 학습 사이에 격차가 있는 한 AGI는 아니다”라는 말에 대해, 90년대 Deep Blue 시절의 비유가 떠오름
“비행기가 새처럼 날개를 퍼덕이지 않는다고 해서 날지 않는 건 아니다”라는 말처럼, 인간과 다른 방식으로 학습한다고 해서 지능이 부정되는 건 아님
- 이 격차는 단순한 철학 문제가 아니라 경제적 파급력의 문제임. 격차가 0이 되면 인간 지식노동이 완전히 대체됨. 심지어 완전한 AGI가 없어도 경제는 붕괴할 수 있음
- Dijkstra의 글(EWD867)을 떠올림. “컴퓨터가 생각할 수 있는가?”는 “잠수함이 수영할 수 있는가?”만큼 무의미하다는 비유임
- AGI의 ‘G’는 General을 뜻하지만, 인간도 전반적이지 않음. 비행기는 새보다 다재다능하지 않지만 이동성을 확장시킴
- 나로서는 AGI 논쟁은 이미 끝난 주제임. 지금의 도구들만으로도 충분히 유용하고, 이미 ASI(자기개선형 지능) 조짐도 보임. ARC-AGI 대회는 단지 현황을 측정하는 흥미로운 실험임
- 지능은 인간형만 존재하지 않음. 중요한 건 출력의 유용성임. 다만 의식 여부는 도덕적 문제로, 증명할 수 없으니 일단 의식이 있다고 가정해야 한다는 입장임
ARC의 접근은 매우 훌륭한 AGI 평가 방식이라 생각함
인간과 AI에 동일한 입력을 주고 결과를 비교하는 단순한 구조임
‘General’이라는 단어가 핵심이며, ARC는 바로 그 범용성을 측정하려는 시도임
AI가 유용한지 아닌지는 부차적임. 이 테스트는 지금까지 중 가장 설득력 있는 시도임
또한 자신의 전문 분야 질문을 AI에게 던져보면, 종종 틀린 답을 내는 걸 볼 수 있음. 우리는 지식과 지능을 혼동하는 경향이 있음
- ‘General’이란 표현이 틀렸다고 생각함. 인간도 전반적이지 않고, 들쭉날쭉한 능력을 가짐. 언어는 LLM이 이미 인간을 능가함
- 이 테스트는 시각적 인식이 필요한 게임이라, 맹인에게 운전시험을 보는 것과 비슷함. 게임을 텍스트로 바꾸면 LLM이 인간보다 잘할 수도 있음
- 이전 ARC-AGI는 IQ 테스트 같았는데, 이번 버전은 너무 쉬움. LLM이 못 푸는 건 입력 형식 불일치 때문일 가능성이 큼. 텍스트 기반 게임 학습만 해도 곧 해결될 것 같음
이런 벤치마크를 보면 드는 의문은, OpenAI가 사람을 고용해 데이터셋을 만들지 막을 방법이 있느냐는 것임
- 중요한 질문은 그게 아니라 “모델이 일반화할 수 있는가?”임. ARC-AGI는 시각적 장기 문맥 문제 해결과 에이전시를 평가하도록 설계된 듯함
여러 레벨을 직접 해보니 확실히 나는 AGI가 아님을 깨달음
- NGI, 즉 Natural General Intelligence라고 불러야겠음
- 다만 AI는 인터넷 전체에 접근할 수 있고, 시간 제한도 없으며, 수많은 오답을 제출해도 부끄럽지 않음. 이런 조건은 인간 시험과는 전혀 다름
- “AGI 기준을 낮춰줘서 고맙다”는 농담도 들음
나는 약간 회의적임
게임에 익숙한 사람은 100% 통과하겠지만, 컴퓨터를 처음 쓰는 할머니는 완전히 실패할 것임. LLM도 마찬가지임
결국 이런 게임 데이터로 학습된 모델은 쉽게 적응할 것이고, 그건 AGI가 아님
- 하지만 인간도 학습을 통해 게임을 잘하게 되므로, 온라인 학습이 허용되지 않는 한 이 테스트는 인간식 학습을 반영하지 못함
- 나도 40년차 게이머로서 이런 퍼즐은 너무 쉬웠음. 규칙만 파악하면 바로 풀림. 이런 류의 문제는 내 전문 영역임
YC 런치 이벤트에서 이 프로젝트를 직접 봤는데, 오랜만에 영감을 받았음
ARC2를 실험하던 사람이 로봇 팔을 더 효율적으로 움직이는 방법을 발견했다는 얘기도 들음
단순히 점수를 올리는 과정이 실제 로보틱스 혁신으로 이어진 셈임
ARC-4, 5, 6도 나올 예정이며, 앞으로는 제로 컨텍스트에서 문제를 해결하는 모델을 기대한다고 함
- 하지만 이런 식의 확장은 결국 기준점 이동(goalpost moving) 처럼 보이기도 함
ARC-AGI가 AGI와 직접 관련 있는지는 모르겠음
결국 특정 유형의 게임에서 LLM의 성능을 측정하는 것일 뿐임
인간이 그 게임을 잘하든 못하든, 이미 컴퓨터가 인간을 압도하는 게임은 많음
따라서 중요한 건 이 게임들이 지능의 대표성을 가지느냐는 점임
- ARC-AGI의 창시자 Chollet은 지능을 “처음 보는 상황에서 얼마나 잘 작동하는가”로 정의함. ARC-AGI는 바로 그 능력을 측정함
- 하지만 ‘AGI’는 마케팅 용어에 가깝고, 이런 벤치마크는 실제 업무 효율보다는 홍보용임
나는 이 게임의 인간 테스터였음
90분 동안 25개 게임을 풀었고, 지시사항에는 행동 수를 최소화하라고 되어 있었지만, 실제로는 속도 보상($5/게임) 때문에 빠르게 푸는 데 집중했음
그래서 인간 기준 데이터는 실제보다 행동 수가 많게 기록되었을 가능성이 큼
ARC-AGI 리더보드에서 가장 마음에 드는 점은 비용 대비 성능 그래프임
최근의 AI 성능 향상은 대부분 전력 소비 증가와 함께 옴. 결국 더 많은 전기를 쓰면 더 나은 결과를 얻을 수 있음