사전 훈련의 절차적 지식이 대형 언어 모델의 추론을 촉진하는 역할

(arxiv.org)

1P by GN⁺ 7달전 | ★ favorite | 댓글 1개

절차적 지식이 대형 언어 모델의 추론에 미치는 영향
대형 언어 모델(LLM)의 능력과 한계는 최근 몇 년간 상세히 연구되었음. LLM은 문제 해결 능력을 보이지만, 인간과 비교했을 때 추론의 격차가 있어 일반화 전략의 견고성에 의문을 제기함.
LLM 설계에 사용된 데이터의 방대한 양 때문에 전통적인 일반화 측정 방법인 훈련-테스트 세트 분리가 어려움. 이를 극복하기 위해, LLM이 추론 작업을 수행할 때 사용하는 일반화 전략을 사전 훈련 데이터에서 조사함.
두 가지 크기의 모델(7B와 35B)과 2.5B의 사전 훈련 토큰을 사용하여 세 가지 간단한 수학적 추론 작업에 대해 모델 출력에 영향을 미치는 문서를 식별하고, 사실 질문에 답하는 데 영향을 미치는 데이터와 비교함.
모델은 각 사실 질문에 대해 주로 별개의 데이터 세트를 사용하지만, 같은 작업 내의 다른 추론 질문에서도 문서가 유사한 영향을 미치는 경우가 많아 절차적 지식의 존재를 나타냄.
사실 질문의 답변은 가장 영향력 있는 데이터에 자주 나타나지만, 추론 질문의 경우 답변이나 중간 추론 단계의 답변이 높은 영향력을 보이지 않음.
추론 질문에 대한 상위 문서를 질적으로 분석한 결과, 영향력 있는 문서에는 종종 공식이나 코드로 해결 방법을 보여주는 절차적 지식이 포함되어 있음을 확인함.
이러한 발견은 모델이 사용하는 추론 접근 방식이 단순한 검색이 아니라 유사한 형태의 추론을 수행하는 문서에서 절차적 지식을 종합하는 일반화 가능한 전략임을 시사함.

▲

GN⁺ 7달전 [-]

Hacker News 의견

LLM이 모든 문제의 예시를 훈련 데이터에서 찾을 수 없음을 지적하며, 정보 검색 스타일의 탐색에 필요한 사실적 조회 예시가 충분하지 않음을 언급함
- Apple LLM 논문과 모순되지 않으며, LLM이 기존 예시에서 약간의 변형만 가능하다고 믿음
- "추론"이라는 용어 사용에 불만을 표하며, 이는 LLM 회사들이 기술을 감정적으로 표현하기 위해 만든 용어임을 주장함
- 자연어로 기계를 지시할 수 있는 능력이 큰 발전임을 강조함
인간이 문제를 단계별로 해결해야 신경망이 이를 모방할 수 있다는 점을 지적함
- 코드 훈련의 예상치 못한 이점을 설명함
LLM이 문제 해결 능력을 보여주지만, 인간과 비교했을 때 추론의 격차가 있음을 언급함
- LLM을 단순히 다음 토큰 예측기로 보는 사용자들이 많음을 지적함
언어 모델이 추론 질문에 답할 때, 제한된 문서 집합에서 정보를 검색하는 경우가 많음을 설명함
- 반대로, 질문과 추상적으로 관련된 다양한 문서에서 정보를 끌어오는 것이 더 일반화된 추론 전략이어야 한다고 제안함
Google의 사전 훈련이 칩 설계에서 중요한 역할을 한다고 주장함
- 사전 훈련 없이 시도한 결과가 현재 기술 수준에 미치지 못하는 것은 당연하다고 설명함
생성된 이미지가 악몽 같은 이유를 묻고, 더 많은 추론 훈련 데이터가 필요하다고 주장함
- 수학적 증명이 비합성 데이터의 가장 낮은 열매일 수 있음을 언급함
AlphaGo와 AlphaZero의 비교를 통해 인간의 절차적 지식이 ML 훈련에 도움이 되지만, 한계가 있을 수 있음을 설명함
학생 노트, 시험, 책 리뷰 등으로 훈련하면 LLM이 더 나아질 수 있음을 제안하며, 이는 매우 흥미로울 것임을 언급함

답변달기

사전 훈련의 절차적 지식이 대형 언어 모델의 추론을 촉진하는 역할

절차적 지식이 대형 언어 모델의 추론에 미치는 영향

Hacker News 의견