scaling01의 트윗을 보면 ARC-AGI-3의 여러 평가 방식 문제가 지적되어 있음
인간 기준점이 ‘두 번째로 빠른 인간’으로 정의되어 있고, 점수는 단순 성공률이 아니라 효율성 제곱값으로 계산됨
즉, 인간이 10단계로 푼 문제를 모델이 100단계로 풀면 1% 점수만 받는 식임
또한 100%는 모든 레벨이 풀렸음을 의미할 뿐, 인간 수준을 의미하지 않음
이런 설계는 모델이 인간 수준이어도 100%를 받지 못하게 되어 있음
프롬프트는 단순하고, 모델은 인간보다 5배 이상 많은 스텝을 쓸 수 없음
후반 레벨에 가중치를 더 둔 것도 지속 학습을 감지하려는 의도라고 함
이런 점들이 문제라기보다는 오히려 올바른 접근 방식처럼 느껴짐. ARC-AGI에 대한 인상이 오히려 좋아졌음
프롬프트가 단순한 건 Kaggle 대회에서 해결할 부분임. 최신 LLM을 연결하면 GPU 제한이 있는 참가자보다 훨씬 잘할 것임
인간 기준 정의는 원래 임의적일 수밖에 없음. 어차피 ‘평균 인간’은 문맹이거나 이미 사망한 존재임
사실 이런 설계가 합리적임. 대부분의 사람보다 상위 80%에 드는 건 쉽고, 95% 이상도 동기부여만 있으면 가능함
오히려 이런 방식이 LLM에게 훨씬 더 어려운 테스트를 만들어서, 현재 점수가 더 인상적으로 보이게 함
“AI와 인간 학습 사이에 격차가 있는 한 AGI는 아니다”라는 말에 대해, 90년대 Deep Blue 시절의 비유가 떠오름
“비행기가 새처럼 날개를 퍼덕이지 않는다고 해서 날지 않는 건 아니다”라는 말처럼, 인간과 다른 방식으로 학습한다고 해서 지능이 부정되는 건 아님
이 격차는 단순한 철학 문제가 아니라 경제적 파급력의 문제임. 격차가 0이 되면 인간 지식노동이 완전히 대체됨. 심지어 완전한 AGI가 없어도 경제는 붕괴할 수 있음
Dijkstra의 글(EWD867)을 떠올림. “컴퓨터가 생각할 수 있는가?”는 “잠수함이 수영할 수 있는가?”만큼 무의미하다는 비유임
나로서는 AGI 논쟁은 이미 끝난 주제임. 지금의 도구들만으로도 충분히 유용하고, 이미 ASI(자기개선형 지능) 조짐도 보임. ARC-AGI 대회는 단지 현황을 측정하는 흥미로운 실험임
지능은 인간형만 존재하지 않음. 중요한 건 출력의 유용성임. 다만 의식 여부는 도덕적 문제로, 증명할 수 없으니 일단 의식이 있다고 가정해야 한다는 입장임
ARC의 접근은 매우 훌륭한 AGI 평가 방식이라 생각함
인간과 AI에 동일한 입력을 주고 결과를 비교하는 단순한 구조임
‘General’이라는 단어가 핵심이며, ARC는 바로 그 범용성을 측정하려는 시도임
AI가 유용한지 아닌지는 부차적임. 이 테스트는 지금까지 중 가장 설득력 있는 시도임
또한 자신의 전문 분야 질문을 AI에게 던져보면, 종종 틀린 답을 내는 걸 볼 수 있음. 우리는 지식과 지능을 혼동하는 경향이 있음
‘General’이란 표현이 틀렸다고 생각함. 인간도 전반적이지 않고, 들쭉날쭉한 능력을 가짐. 언어는 LLM이 이미 인간을 능가함
이 테스트는 시각적 인식이 필요한 게임이라, 맹인에게 운전시험을 보는 것과 비슷함. 게임을 텍스트로 바꾸면 LLM이 인간보다 잘할 수도 있음
이전 ARC-AGI는 IQ 테스트 같았는데, 이번 버전은 너무 쉬움. LLM이 못 푸는 건 입력 형식 불일치 때문일 가능성이 큼. 텍스트 기반 게임 학습만 해도 곧 해결될 것 같음
이런 벤치마크를 보면 드는 의문은, OpenAI가 사람을 고용해 데이터셋을 만들지 막을 방법이 있느냐는 것임
중요한 질문은 그게 아니라 “모델이 일반화할 수 있는가?”임. ARC-AGI는 시각적 장기 문맥 문제 해결과 에이전시를 평가하도록 설계된 듯함
여러 레벨을 직접 해보니 확실히 나는 AGI가 아님을 깨달음
NGI, 즉 Natural General Intelligence라고 불러야겠음
다만 AI는 인터넷 전체에 접근할 수 있고, 시간 제한도 없으며, 수많은 오답을 제출해도 부끄럽지 않음. 이런 조건은 인간 시험과는 전혀 다름
“AGI 기준을 낮춰줘서 고맙다”는 농담도 들음
나는 약간 회의적임
게임에 익숙한 사람은 100% 통과하겠지만, 컴퓨터를 처음 쓰는 할머니는 완전히 실패할 것임. LLM도 마찬가지임
결국 이런 게임 데이터로 학습된 모델은 쉽게 적응할 것이고, 그건 AGI가 아님
하지만 인간도 학습을 통해 게임을 잘하게 되므로, 온라인 학습이 허용되지 않는 한 이 테스트는 인간식 학습을 반영하지 못함
나도 40년차 게이머로서 이런 퍼즐은 너무 쉬웠음. 규칙만 파악하면 바로 풀림. 이런 류의 문제는 내 전문 영역임
YC 런치 이벤트에서 이 프로젝트를 직접 봤는데, 오랜만에 영감을 받았음
ARC2를 실험하던 사람이 로봇 팔을 더 효율적으로 움직이는 방법을 발견했다는 얘기도 들음
단순히 점수를 올리는 과정이 실제 로보틱스 혁신으로 이어진 셈임
ARC-4, 5, 6도 나올 예정이며, 앞으로는 제로 컨텍스트에서 문제를 해결하는 모델을 기대한다고 함
하지만 이런 식의 확장은 결국 기준점 이동(goalpost moving) 처럼 보이기도 함
ARC-AGI가 AGI와 직접 관련 있는지는 모르겠음
결국 특정 유형의 게임에서 LLM의 성능을 측정하는 것일 뿐임
인간이 그 게임을 잘하든 못하든, 이미 컴퓨터가 인간을 압도하는 게임은 많음
따라서 중요한 건 이 게임들이 지능의 대표성을 가지느냐는 점임
ARC-AGI의 창시자 Chollet은 지능을 “처음 보는 상황에서 얼마나 잘 작동하는가”로 정의함. ARC-AGI는 바로 그 능력을 측정함
하지만 ‘AGI’는 마케팅 용어에 가깝고, 이런 벤치마크는 실제 업무 효율보다는 홍보용임
나는 이 게임의 인간 테스터였음
90분 동안 25개 게임을 풀었고, 지시사항에는 행동 수를 최소화하라고 되어 있었지만, 실제로는 속도 보상($5/게임) 때문에 빠르게 푸는 데 집중했음
그래서 인간 기준 데이터는 실제보다 행동 수가 많게 기록되었을 가능성이 큼
ARC-AGI 리더보드에서 가장 마음에 드는 점은 비용 대비 성능 그래프임
최근의 AI 성능 향상은 대부분 전력 소비 증가와 함께 옴. 결국 더 많은 전기를 쓰면 더 나은 결과를 얻을 수 있음
Hacker News 의견들
scaling01의 트윗을 보면 ARC-AGI-3의 여러 평가 방식 문제가 지적되어 있음
인간 기준점이 ‘두 번째로 빠른 인간’으로 정의되어 있고, 점수는 단순 성공률이 아니라 효율성 제곱값으로 계산됨
즉, 인간이 10단계로 푼 문제를 모델이 100단계로 풀면 1% 점수만 받는 식임
또한 100%는 모든 레벨이 풀렸음을 의미할 뿐, 인간 수준을 의미하지 않음
이런 설계는 모델이 인간 수준이어도 100%를 받지 못하게 되어 있음
프롬프트는 단순하고, 모델은 인간보다 5배 이상 많은 스텝을 쓸 수 없음
후반 레벨에 가중치를 더 둔 것도 지속 학습을 감지하려는 의도라고 함
“AI와 인간 학습 사이에 격차가 있는 한 AGI는 아니다”라는 말에 대해, 90년대 Deep Blue 시절의 비유가 떠오름
“비행기가 새처럼 날개를 퍼덕이지 않는다고 해서 날지 않는 건 아니다”라는 말처럼, 인간과 다른 방식으로 학습한다고 해서 지능이 부정되는 건 아님
ARC의 접근은 매우 훌륭한 AGI 평가 방식이라 생각함
인간과 AI에 동일한 입력을 주고 결과를 비교하는 단순한 구조임
‘General’이라는 단어가 핵심이며, ARC는 바로 그 범용성을 측정하려는 시도임
AI가 유용한지 아닌지는 부차적임. 이 테스트는 지금까지 중 가장 설득력 있는 시도임
또한 자신의 전문 분야 질문을 AI에게 던져보면, 종종 틀린 답을 내는 걸 볼 수 있음. 우리는 지식과 지능을 혼동하는 경향이 있음
이런 벤치마크를 보면 드는 의문은, OpenAI가 사람을 고용해 데이터셋을 만들지 막을 방법이 있느냐는 것임
여러 레벨을 직접 해보니 확실히 나는 AGI가 아님을 깨달음
나는 약간 회의적임
게임에 익숙한 사람은 100% 통과하겠지만, 컴퓨터를 처음 쓰는 할머니는 완전히 실패할 것임. LLM도 마찬가지임
결국 이런 게임 데이터로 학습된 모델은 쉽게 적응할 것이고, 그건 AGI가 아님
YC 런치 이벤트에서 이 프로젝트를 직접 봤는데, 오랜만에 영감을 받았음
ARC2를 실험하던 사람이 로봇 팔을 더 효율적으로 움직이는 방법을 발견했다는 얘기도 들음
단순히 점수를 올리는 과정이 실제 로보틱스 혁신으로 이어진 셈임
ARC-4, 5, 6도 나올 예정이며, 앞으로는 제로 컨텍스트에서 문제를 해결하는 모델을 기대한다고 함
ARC-AGI가 AGI와 직접 관련 있는지는 모르겠음
결국 특정 유형의 게임에서 LLM의 성능을 측정하는 것일 뿐임
인간이 그 게임을 잘하든 못하든, 이미 컴퓨터가 인간을 압도하는 게임은 많음
따라서 중요한 건 이 게임들이 지능의 대표성을 가지느냐는 점임
나는 이 게임의 인간 테스터였음
90분 동안 25개 게임을 풀었고, 지시사항에는 행동 수를 최소화하라고 되어 있었지만, 실제로는 속도 보상($5/게임) 때문에 빠르게 푸는 데 집중했음
그래서 인간 기준 데이터는 실제보다 행동 수가 많게 기록되었을 가능성이 큼
ARC-AGI 리더보드에서 가장 마음에 드는 점은 비용 대비 성능 그래프임
최근의 AI 성능 향상은 대부분 전력 소비 증가와 함께 옴. 결국 더 많은 전기를 쓰면 더 나은 결과를 얻을 수 있음