GPT-4o로 Arc-AGI에서 50% (SoTA) 달

▲

GN⁺ 2024-06-19 | parent | ★ favorite | on: GPT-4o로 Arc-AGI에서 50% (SoTA) 달성(redwoodresearch.substack.com)

Hacker News 의견

ARC Prize 공동 창립자: Ryan의 연구는 흥미롭고 새로운 "LLM 추론" 연구로, GPT-4o를 사용해 8,000개의 파이썬 프로그램을 생성하고, 올바른 프로그램을 선택해 추가 테스트 입력에 적용하는 방식임. 공공 평가 세트에서의 결과이며, 검증된 결과는 아니지만 기대됨. Ryan의 노력에 축하와 감사의 말을 전함.
기사 비판: 기사에서 여러 수작업 트릭을 사용해 결과를 얻었음에도 불구하고 "현재 LLM이 ARC-AGI에서 꽤 잘 수행할 수 있다"는 결론으로 뛰어넘음. Francois Chollet에 대한 공격은 커뮤니티에 해를 끼침.
GPT-4에 대한 의견: GPT-4는 나쁜 AGI이며, GPT-1도 AGI였음. 인간의 지능도 점진적으로 발달하듯이, GPT-4도 텍스트 사고에 특화된 작은 뇌로 볼 수 있음. ARC가 일반 지능의 절대 기준이라고 주장하는 것은 지능의 큰 그림을 놓치는 것임.
GPT-4의 초기 시도: GPT-4가 퍼즐에서 "괜찮은" 성과를 냈지만, 논리적 부분에서 실패하는 경우가 있었음. 시각-공간적 요소가 중요하며, 다중 모드 모델이 필요할 수 있음. 파이썬 솔루션을 무작위로 생성하는 것은 "비인간적" 접근임.
LLM 조작의 의미: 많은 사람들이 LLM을 조작해 AGI 테스트를 통과시키는 것은 AGI 테스트의 목적을 무색하게 함. 그러나 어떤 조작이 효과적인지 알아내는 것은 유익함. 대부분의 문제는 패턴 매칭으로 귀결됨.
주요 포인트:
- 대부분의 작업은 검색에 의해 수행됨.
- 더 많은 샘플이 성능을 향상시킴.
- LLM이 무작위 프로그램보다 더 나은 프로그램을 생성함.
- GPT-4가 ARC 퍼즐을 해결할 수 있는지에 대한 확신은 없음.
ARC-AGI의 결함: ARC-AGI가 결함이 있는 것처럼 보임. AGI로 설명할 수 있는 것을 훈련 세트에 포함된 것으로 설명할 수 있음.
시스템 2와 AGI: 많은 프로그램을 생성하고 평가하는 것이 AGI의 시스템 2 역할을 할 수 있음. 이는 인간이 지능적으로 사고하는 방식과 유사함.
물리적 이해의 중요성: 이 도전은 물리적 이해와 공간 인식, 객체 경계에 의존함. 객체를 식별하고 변환이나 관계를 맵핑하는 것이 중요함. 프로그램 검색과 LLM을 결합해 해결할 수 있음.
GPT-4의 계획 능력: GPT-4는 기사에서 설명된 것과 유사한 계획을 생성할 수 있음. 기능 추출, 프로그램 합성, 반복적 개선을 포함함. 코딩과 시각 입력에서 약점이 있음.