GN⁺: 사전 훈련의 절차적 지식이 대형 언어 모델의 추론을 촉진하는 역할
(arxiv.org)-
절차적 지식이 대형 언어 모델의 추론에 미치는 영향
-
대형 언어 모델(LLM)의 능력과 한계는 최근 몇 년간 상세히 연구되었음. LLM은 문제 해결 능력을 보이지만, 인간과 비교했을 때 추론의 격차가 있어 일반화 전략의 견고성에 의문을 제기함.
-
LLM 설계에 사용된 데이터의 방대한 양 때문에 전통적인 일반화 측정 방법인 훈련-테스트 세트 분리가 어려움. 이를 극복하기 위해, LLM이 추론 작업을 수행할 때 사용하는 일반화 전략을 사전 훈련 데이터에서 조사함.
-
두 가지 크기의 모델(7B와 35B)과 2.5B의 사전 훈련 토큰을 사용하여 세 가지 간단한 수학적 추론 작업에 대해 모델 출력에 영향을 미치는 문서를 식별하고, 사실 질문에 답하는 데 영향을 미치는 데이터와 비교함.
-
모델은 각 사실 질문에 대해 주로 별개의 데이터 세트를 사용하지만, 같은 작업 내의 다른 추론 질문에서도 문서가 유사한 영향을 미치는 경우가 많아 절차적 지식의 존재를 나타냄.
-
사실 질문의 답변은 가장 영향력 있는 데이터에 자주 나타나지만, 추론 질문의 경우 답변이나 중간 추론 단계의 답변이 높은 영향력을 보이지 않음.
-
추론 질문에 대한 상위 문서를 질적으로 분석한 결과, 영향력 있는 문서에는 종종 공식이나 코드로 해결 방법을 보여주는 절차적 지식이 포함되어 있음을 확인함.
-
이러한 발견은 모델이 사용하는 추론 접근 방식이 단순한 검색이 아니라 유사한 형태의 추론을 수행하는 문서에서 절차적 지식을 종합하는 일반화 가능한 전략임을 시사함.
Hacker News 의견
-
LLM이 모든 문제의 예시를 훈련 데이터에서 찾을 수 없음을 지적하며, 정보 검색 스타일의 탐색에 필요한 사실적 조회 예시가 충분하지 않음을 언급함
- Apple LLM 논문과 모순되지 않으며, LLM이 기존 예시에서 약간의 변형만 가능하다고 믿음
- "추론"이라는 용어 사용에 불만을 표하며, 이는 LLM 회사들이 기술을 감정적으로 표현하기 위해 만든 용어임을 주장함
- 자연어로 기계를 지시할 수 있는 능력이 큰 발전임을 강조함
-
인간이 문제를 단계별로 해결해야 신경망이 이를 모방할 수 있다는 점을 지적함
- 코드 훈련의 예상치 못한 이점을 설명함
-
LLM이 문제 해결 능력을 보여주지만, 인간과 비교했을 때 추론의 격차가 있음을 언급함
- LLM을 단순히 다음 토큰 예측기로 보는 사용자들이 많음을 지적함
-
언어 모델이 추론 질문에 답할 때, 제한된 문서 집합에서 정보를 검색하는 경우가 많음을 설명함
- 반대로, 질문과 추상적으로 관련된 다양한 문서에서 정보를 끌어오는 것이 더 일반화된 추론 전략이어야 한다고 제안함
-
Google의 사전 훈련이 칩 설계에서 중요한 역할을 한다고 주장함
- 사전 훈련 없이 시도한 결과가 현재 기술 수준에 미치지 못하는 것은 당연하다고 설명함
-
생성된 이미지가 악몽 같은 이유를 묻고, 더 많은 추론 훈련 데이터가 필요하다고 주장함
- 수학적 증명이 비합성 데이터의 가장 낮은 열매일 수 있음을 언급함
-
AlphaGo와 AlphaZero의 비교를 통해 인간의 절차적 지식이 ML 훈련에 도움이 되지만, 한계가 있을 수 있음을 설명함
-
학생 노트, 시험, 책 리뷰 등으로 훈련하면 LLM이 더 나아질 수 있음을 제안하며, 이는 매우 흥미로울 것임을 언급함