GN⁺: LLM의 수학적 추론 한계 이해
(arxiv.org)GSM-Symbolic: 대형 언어 모델의 수학적 추론 한계 이해
- 최근 대형 언어 모델(LLM)의 발전은 수학에서의 형식적 추론 능력에 대한 관심을 불러일으킴.
- GSM8K 벤치마크는 초등학교 수준의 질문에 대한 모델의 수학적 추론을 평가하는 데 널리 사용됨.
- LLM의 GSM8K 성능은 최근 몇 년간 크게 향상되었으나, 실제로 수학적 추론 능력이 발전했는지는 불분명함.
- 이러한 문제를 해결하기 위해 여러 최신 개방형 및 폐쇄형 모델에 대한 대규모 연구를 수행함.
- 기존 평가의 한계를 극복하기 위해, 다양한 질문 생성을 가능하게 하는 기호적 템플릿으로 구성된 개선된 벤치마크인 GSM-Symbolic을 도입함.
- GSM-Symbolic은 더 통제된 평가를 가능하게 하여, 추론 능력을 측정하는 데 있어 더 신뢰할 수 있는 지표를 제공함.
- 연구 결과, LLM은 동일한 질문의 다른 구현에 응답할 때 눈에 띄는 변동성을 보임.
- 특히, GSM-Symbolic 벤치마크에서 질문의 숫자 값만 변경해도 모든 모델의 성능이 저하됨.
- 또한, 이러한 모델의 수학적 추론의 취약성을 조사하고, 질문의 절 수가 증가할수록 성능이 크게 저하됨을 보여줌.
- 이는 현재 LLM이 진정한 논리적 추론을 수행할 수 없고, 훈련 데이터에서 추론 단계를 복제하기 때문이라고 가정함.
- 질문에 관련성이 있어 보이는 절을 하나 추가하면, 최종 답변에 필요한 추론 체인에 기여하지 않더라도 모든 최신 모델에서 최대 65%의 성능 저하가 발생함.
GN⁺의 정리
- 이 연구는 대형 언어 모델의 수학적 추론 능력과 한계를 보다 세밀하게 이해할 수 있게 해줌.
- GSM-Symbolic 벤치마크는 다양한 질문을 통해 모델의 추론 능력을 더 정확하게 평가할 수 있는 도구를 제공함.
- 이 연구는 LLM이 실제 논리적 추론보다는 훈련 데이터의 추론 단계를 복제하는 경향이 있음을 보여줌.
- 수학적 추론 능력을 평가하는 다른 벤치마크로는 MATH, MATHQA 등이 추천됨.
Hacker News 의견
- LLM의 성능 저하는 대학 신입생의 문제 해결 능력과 유사함. 간단한 문제는 잘 해결하지만 여러 단계를 연결해야 하는 문제에서는 정확도가 떨어짐. 이는 LLM이 고등학교 졸업생 수준의 논리적 사고를 할 수 있음을 의미함
- 예를 들어, 불필요한 정보가 포함된 문제에서 LLM의 성능이 크게 저하됨. 이는 인간도 마찬가지로 불필요한 정보를 포함한 문제를 읽을 때 발생할 수 있는 상황임
- 수학적 추론의 취약성을 연구한 결과, 질문의 절이 많아질수록 성능이 저하됨. 이는 LLM이 진정한 논리적 추론을 할 수 없기 때문일 수 있음
- 토큰화 과정에서 간단한 산술 문제의 예측이 무의미해짐. 이는 도구 사용의 필요성을 시사하지만, 진정한 논리적 추론에는 부정적임
- "Alice in Wonderland" 문제와 유사한 결과가 나타남. 이는 패턴 매칭과 추론 사이의 중간 상태에 있는 모델의 문제일 수 있음
- 수학과 추론 관련 LLM 벤치마크 결과를 신뢰할 수 없음을 시사함. 문제의 문자, 숫자, 문장 구조가 결과에 큰 영향을 미침
- GSM-Symbolic 벤치마크에서 숫자 값만 변경해도 모든 모델의 성능이 저하됨. 이는 과적합의 증거로, LLM이 수학적 추론을 학습하는 데 근본적인 한계가 있음을 나타냄
- LLM의 "사고" 방식은 대부분의 학교 과정을 통과할 수 있는 수준임. 그러나 패턴 매칭에 의존하지 않는 문제를 출제하는 교사가 있는 경우에는 어려움을 겪을 수 있음
- 잘 알려진 논리 퍼즐에서 LLM은 특정 요소를 변경하면 문제를 해결하지 못함. 이는 LLM이 형식적 추론을 할 수 없음을 보여줌
- LLM은 형식적 추론을 할 수 없지만, 훈련 데이터에서 "추론 단계"를 적용하여 많은 논리적 문제를 해결할 수 있음. 이는 흥미로운 이분법임
- 인간과 동물의 수학적 추론의 한계를 보여줄 수 있는 연구가 흥미로울 것임. 인간이 이해할 수 없는 아이디어가 있을 수 있으며, 이를 통해 인간이 할 수 없는 방식으로 추론할 수 있는 기계를 만들 수 있을지 궁금함