GN⁺: GPT-4o로 Arc-AGI에서 50% (SoTA) 달성
(redwoodresearch.substack.com)ARC-AGI에서 GPT-4로 50% 정확도 달성하기
ARC-AGI란 무엇인가?
- ARC-AGI는 AI의 일반적인 추론 능력을 평가하기 위해 만들어진 데이터셋임.
- 색깔 셀로 이루어진 격자(grid) 형태의 입력-출력 예제를 보고 변환 규칙을 추론하는 문제로 구성됨.
- 인간의 평균 정확도는 훈련 세트에서 85%지만, 테스트 세트는 훨씬 더 어려움.
나의 방법
- GPT-4를 사용하여 문제당 약 8,000개의 파이썬 프로그램을 생성하고, 올바른 출력을 내는 프로그램을 선택함.
- 몇 가지 추가 접근법과 조정을 통해 성능을 크게 향상시킴:
- Few-shot prompts: 단계별 추론을 수행하는 프롬프트 사용.
- 코드 수정: 예제 출력 결과를 보고 GPT-4가 일부 구현을 수정하도록 함.
- 특징 엔지니어링: 더 나은 격자 표현을 모델에 제공.
- 특화된 프롬프트: 격자 크기가 변하는 경우와 변하지 않는 경우에 따라 다른 프롬프트 사용.
더 많은 샘플링의 효과
- 샘플 수가 늘어날수록 성능이 향상됨.
- 예를 들어, 1024개의 샘플로 25% 정확도를 달성했지만, 2048개의 샘플로 34% 정확도를 달성함.
더 나은 프롬프트와 코드 수정의 효과
- 프롬프트 개선과 코드 수정 단계가 정확도 향상에 중요함.
- 최종 버전에서는 50% 정확도를 달성함.
한계 및 예측
- GPT-4의 시각적 인식 능력과 코딩 능력이 제한적임.
- 더 많은 샘플링과 더 나은 프롬프트가 필요함.
- 다음 세대의 LLM이 ARC-AGI 성능을 크게 향상시킬 가능성이 높음.
GN⁺의 의견
- 시각적 인식 능력: GPT-4의 시각적 인식 능력이 제한적이어서, 더 나은 시각적 인식 모델이 필요함.
- 코딩 능력: GPT-4가 코딩에서 단순한 실수를 자주 범함. 이를 개선하기 위해 더 나은 디버깅 도구가 필요함.
- 샘플링 비용: 많은 샘플링이 필요하므로 비용이 많이 들 수 있음. 효율적인 샘플링 방법이 필요함.
- 미래 가능성: 다음 세대의 LLM이 ARC-AGI 성능을 크게 향상시킬 가능성이 높음. 이를 통해 AI의 일반적인 추론 능력을 평가하는 데 중요한 기준이 될 수 있음.
- 실제 응용: ARC-AGI와 같은 문제 해결 능력이 실제 응용 분야에서 어떻게 활용될 수 있을지에 대한 연구가 필요함.
Hacker News 의견
-
ARC Prize 공동 창립자: Ryan의 연구는 흥미롭고 새로운 "LLM 추론" 연구로, GPT-4o를 사용해 8,000개의 파이썬 프로그램을 생성하고, 올바른 프로그램을 선택해 추가 테스트 입력에 적용하는 방식임. 공공 평가 세트에서의 결과이며, 검증된 결과는 아니지만 기대됨. Ryan의 노력에 축하와 감사의 말을 전함.
-
기사 비판: 기사에서 여러 수작업 트릭을 사용해 결과를 얻었음에도 불구하고 "현재 LLM이 ARC-AGI에서 꽤 잘 수행할 수 있다"는 결론으로 뛰어넘음. Francois Chollet에 대한 공격은 커뮤니티에 해를 끼침.
-
GPT-4에 대한 의견: GPT-4는 나쁜 AGI이며, GPT-1도 AGI였음. 인간의 지능도 점진적으로 발달하듯이, GPT-4도 텍스트 사고에 특화된 작은 뇌로 볼 수 있음. ARC가 일반 지능의 절대 기준이라고 주장하는 것은 지능의 큰 그림을 놓치는 것임.
-
GPT-4의 초기 시도: GPT-4가 퍼즐에서 "괜찮은" 성과를 냈지만, 논리적 부분에서 실패하는 경우가 있었음. 시각-공간적 요소가 중요하며, 다중 모드 모델이 필요할 수 있음. 파이썬 솔루션을 무작위로 생성하는 것은 "비인간적" 접근임.
-
LLM 조작의 의미: 많은 사람들이 LLM을 조작해 AGI 테스트를 통과시키는 것은 AGI 테스트의 목적을 무색하게 함. 그러나 어떤 조작이 효과적인지 알아내는 것은 유익함. 대부분의 문제는 패턴 매칭으로 귀결됨.
-
주요 포인트:
- 대부분의 작업은 검색에 의해 수행됨.
- 더 많은 샘플이 성능을 향상시킴.
- LLM이 무작위 프로그램보다 더 나은 프로그램을 생성함.
- GPT-4가 ARC 퍼즐을 해결할 수 있는지에 대한 확신은 없음.
-
ARC-AGI의 결함: ARC-AGI가 결함이 있는 것처럼 보임. AGI로 설명할 수 있는 것을 훈련 세트에 포함된 것으로 설명할 수 있음.
-
시스템 2와 AGI: 많은 프로그램을 생성하고 평가하는 것이 AGI의 시스템 2 역할을 할 수 있음. 이는 인간이 지능적으로 사고하는 방식과 유사함.
-
물리적 이해의 중요성: 이 도전은 물리적 이해와 공간 인식, 객체 경계에 의존함. 객체를 식별하고 변환이나 관계를 맵핑하는 것이 중요함. 프로그램 검색과 LLM을 결합해 해결할 수 있음.
-
GPT-4의 계획 능력: GPT-4는 기사에서 설명된 것과 유사한 계획을 생성할 수 있음. 기능 추출, 프로그램 합성, 반복적 개선을 포함함. 코딩과 시각 입력에서 약점이 있음.