LLM의 수학적 추론 한계 이해

(arxiv.org)

2P by GN⁺ 9달전 | ★ favorite | 댓글 1개

GSM-Symbolic: 대형 언어 모델의 수학적 추론 한계 이해

최근 대형 언어 모델(LLM)의 발전은 수학에서의 형식적 추론 능력에 대한 관심을 불러일으킴.
GSM8K 벤치마크는 초등학교 수준의 질문에 대한 모델의 수학적 추론을 평가하는 데 널리 사용됨.
LLM의 GSM8K 성능은 최근 몇 년간 크게 향상되었으나, 실제로 수학적 추론 능력이 발전했는지는 불분명함.
이러한 문제를 해결하기 위해 여러 최신 개방형 및 폐쇄형 모델에 대한 대규모 연구를 수행함.
기존 평가의 한계를 극복하기 위해, 다양한 질문 생성을 가능하게 하는 기호적 템플릿으로 구성된 개선된 벤치마크인 GSM-Symbolic을 도입함.
GSM-Symbolic은 더 통제된 평가를 가능하게 하여, 추론 능력을 측정하는 데 있어 더 신뢰할 수 있는 지표를 제공함.
연구 결과, LLM은 동일한 질문의 다른 구현에 응답할 때 눈에 띄는 변동성을 보임.
특히, GSM-Symbolic 벤치마크에서 질문의 숫자 값만 변경해도 모든 모델의 성능이 저하됨.
또한, 이러한 모델의 수학적 추론의 취약성을 조사하고, 질문의 절 수가 증가할수록 성능이 크게 저하됨을 보여줌.
이는 현재 LLM이 진정한 논리적 추론을 수행할 수 없고, 훈련 데이터에서 추론 단계를 복제하기 때문이라고 가정함.
질문에 관련성이 있어 보이는 절을 하나 추가하면, 최종 답변에 필요한 추론 체인에 기여하지 않더라도 모든 최신 모델에서 최대 65%의 성능 저하가 발생함.

GN⁺의 정리

이 연구는 대형 언어 모델의 수학적 추론 능력과 한계를 보다 세밀하게 이해할 수 있게 해줌.
GSM-Symbolic 벤치마크는 다양한 질문을 통해 모델의 추론 능력을 더 정확하게 평가할 수 있는 도구를 제공함.
이 연구는 LLM이 실제 논리적 추론보다는 훈련 데이터의 추론 단계를 복제하는 경향이 있음을 보여줌.
수학적 추론 능력을 평가하는 다른 벤치마크로는 MATH, MATHQA 등이 추천됨.

▲

GN⁺ 9달전 [-]

Hacker News 의견

LLM의 성능 저하는 대학 신입생의 문제 해결 능력과 유사함. 간단한 문제는 잘 해결하지만 여러 단계를 연결해야 하는 문제에서는 정확도가 떨어짐. 이는 LLM이 고등학교 졸업생 수준의 논리적 사고를 할 수 있음을 의미함
- 예를 들어, 불필요한 정보가 포함된 문제에서 LLM의 성능이 크게 저하됨. 이는 인간도 마찬가지로 불필요한 정보를 포함한 문제를 읽을 때 발생할 수 있는 상황임
수학적 추론의 취약성을 연구한 결과, 질문의 절이 많아질수록 성능이 저하됨. 이는 LLM이 진정한 논리적 추론을 할 수 없기 때문일 수 있음
- 토큰화 과정에서 간단한 산술 문제의 예측이 무의미해짐. 이는 도구 사용의 필요성을 시사하지만, 진정한 논리적 추론에는 부정적임
"Alice in Wonderland" 문제와 유사한 결과가 나타남. 이는 패턴 매칭과 추론 사이의 중간 상태에 있는 모델의 문제일 수 있음
- 수학과 추론 관련 LLM 벤치마크 결과를 신뢰할 수 없음을 시사함. 문제의 문자, 숫자, 문장 구조가 결과에 큰 영향을 미침
GSM-Symbolic 벤치마크에서 숫자 값만 변경해도 모든 모델의 성능이 저하됨. 이는 과적합의 증거로, LLM이 수학적 추론을 학습하는 데 근본적인 한계가 있음을 나타냄
LLM의 "사고" 방식은 대부분의 학교 과정을 통과할 수 있는 수준임. 그러나 패턴 매칭에 의존하지 않는 문제를 출제하는 교사가 있는 경우에는 어려움을 겪을 수 있음
잘 알려진 논리 퍼즐에서 LLM은 특정 요소를 변경하면 문제를 해결하지 못함. 이는 LLM이 형식적 추론을 할 수 없음을 보여줌
LLM은 형식적 추론을 할 수 없지만, 훈련 데이터에서 "추론 단계"를 적용하여 많은 논리적 문제를 해결할 수 있음. 이는 흥미로운 이분법임
인간과 동물의 수학적 추론의 한계를 보여줄 수 있는 연구가 흥미로울 것임. 인간이 이해할 수 없는 아이디어가 있을 수 있으며, 이를 통해 인간이 할 수 없는 방식으로 추론할 수 있는 기계를 만들 수 있을지 궁금함

답변달기