최신 LLM에서 추론 붕괴를 보여주는 간단한 작업

(arxiv.org)

3P by GN⁺ 2024-06-06 | ★ favorite | 댓글 1개

앨리스 인 원더랜드: 최신 대형 언어 모델의 완전한 추론 붕괴를 보여주는 간단한 작업

주요 내용 요약

대형 언어 모델(LLMs): 다양한 작업과 조건에서 강력한 성능을 발휘하는 모델로, 사전 훈련 규모를 늘리면 성능이 향상된다는 스케일링 법칙을 따름.
문제점: 최신 대형 언어 모델이 간단한 상식 문제에서 심각한 기능 및 추론 능력 붕괴를 보임. 인간이 쉽게 해결할 수 있는 문제에서도 잘못된 답변을 자신 있게 제시하며, 비논리적인 설명을 통해 잘못된 답변을 정당화함.
실패한 개입: 다양한 유형의 프롬프트 강화나 다단계 재평가를 통해 모델이 올바른 답변을 찾도록 유도하려는 시도가 실패함.
재평가 필요성: 현재 세대의 대형 언어 모델의 주장된 능력을 재평가하고, 이러한 기본적인 추론 결함을 적절히 감지할 수 있는 표준화된 벤치마크를 만드는 것이 필요함.

GN⁺의 의견

기술적 한계: 대형 언어 모델이 특정 상황에서 여전히 한계를 가지고 있음을 보여줌. 이는 모델의 신뢰성을 높이기 위해 추가적인 연구와 개선이 필요함을 시사함.
표준화된 벤치마크: 모델의 성능을 정확하게 평가하기 위해 새로운 표준화된 벤치마크가 필요함. 이는 연구자들이 모델의 약점을 더 잘 이해하고 개선할 수 있도록 도움을 줄 수 있음.
실제 응용: 이러한 결함은 대형 언어 모델을 실제 응용에 사용할 때 주의가 필요함을 의미함. 특히, 중요한 의사결정에 사용될 경우 신뢰성 문제가 발생할 수 있음.
대체 기술: 다른 AI 기술이나 모델을 고려해볼 필요가 있음. 예를 들어, 강화 학습이나 하이브리드 모델 등이 대안이 될 수 있음.
미래 연구 방향: 이 연구는 대형 언어 모델의 한계를 극복하기 위한 새로운 연구 방향을 제시함. 예를 들어, 인간의 상식과 추론 능력을 더 잘 모방할 수 있는 모델 개발이 필요함.

▲

GN⁺ 2024-06-06 [-]

Hacker News 의견

논문을 읽으려는 사람들에게, 논문의 주요 부분은 첫 10페이지로 빠르게 읽을 수 있음.
논문에서 다루는 예시는 이해하기 쉬운 편이지만, 도구들이 실제로 문제를 해결할 수 있을지 의문임.
AI 도구들이 실제로 사고하거나 추론하지 않지만, 많은 사람들이 이를 범용 AI로 간주하는 경향이 있음.
논문이 AI의 과대광고에 영향을 미칠 가능성은 낮아 보임.
"Alice에게 60명의 형제와 212명의 자매가 있다. Alice의 형제는 몇 명의 자매가 있는가?"라는 질문에 GPT-4가 올바른 답을 제공함.
실험에서 모델이 '생각하는 소리'를 내지 않도록 유도했을 때, GPT-4가 일관되게 틀린 답을 제공함.
더 복잡한 예제에서는 GPT-4가 실패하는 경향이 있음.
Gemini 모델은 추가적인 유도 없이 문제를 해결했지만, 숫자를 주었을 때 혼란스러워함.
Alice가 수백 명의 형제를 가질 수 없다는 가정 하에 질문이 부당하다고 생각함.
주요 LLM의 평가 데이터셋이 훈련 데이터에 포함되어 있어 신뢰성 평가에 무용지물임.
새로운 테스트를 만들어 LLM을 평가하는 것이 더 나은 방법임.
일반 대중이 제한된 시간 내에 이러한 퍼즐을 해결할 확률이 낮음.
AIW+ 문제는 일반적인 AIW 문제보다 해결하기 어려움.
논문 저자들이 수백 개의 가족 트리 문제를 만들었기 때문에 답이 명확해 보일 수 있음.
논문에서 제시한 문제는 매우 기본적인 수수께끼의 변형임.
논문이 놀라운 부정적인 결과를 선택적으로 다룬 것 같음.
LLM이 관계적 추론에서 여전히 약함.
LLM은 긴 시간 동안 집중력을 유지하는 능력이 부족함.
LLM이 AGI를 구현할 수 있다는 생각은 희망적 사고에 불과함.
LLM이 계획과 추론에 매우 약하다는 것을 보여주는 좋은 강연이 있음.

답변달기