사전 훈련의 절차적 지식이 대형 언어 모델의 추론을 촉

▲

GN⁺ 2024-12-03 | parent | ★ favorite | on: 사전 훈련의 절차적 지식이 대형 언어 모델의 추론을 촉진하는 역할(arxiv.org)

Hacker News 의견

LLM이 모든 문제의 예시를 훈련 데이터에서 찾을 수 없음을 지적하며, 정보 검색 스타일의 탐색에 필요한 사실적 조회 예시가 충분하지 않음을 언급함
- Apple LLM 논문과 모순되지 않으며, LLM이 기존 예시에서 약간의 변형만 가능하다고 믿음
- "추론"이라는 용어 사용에 불만을 표하며, 이는 LLM 회사들이 기술을 감정적으로 표현하기 위해 만든 용어임을 주장함
- 자연어로 기계를 지시할 수 있는 능력이 큰 발전임을 강조함
인간이 문제를 단계별로 해결해야 신경망이 이를 모방할 수 있다는 점을 지적함
- 코드 훈련의 예상치 못한 이점을 설명함
LLM이 문제 해결 능력을 보여주지만, 인간과 비교했을 때 추론의 격차가 있음을 언급함
- LLM을 단순히 다음 토큰 예측기로 보는 사용자들이 많음을 지적함
언어 모델이 추론 질문에 답할 때, 제한된 문서 집합에서 정보를 검색하는 경우가 많음을 설명함
- 반대로, 질문과 추상적으로 관련된 다양한 문서에서 정보를 끌어오는 것이 더 일반화된 추론 전략이어야 한다고 제안함
Google의 사전 훈련이 칩 설계에서 중요한 역할을 한다고 주장함
- 사전 훈련 없이 시도한 결과가 현재 기술 수준에 미치지 못하는 것은 당연하다고 설명함
생성된 이미지가 악몽 같은 이유를 묻고, 더 많은 추론 훈련 데이터가 필요하다고 주장함
- 수학적 증명이 비합성 데이터의 가장 낮은 열매일 수 있음을 언급함
AlphaGo와 AlphaZero의 비교를 통해 인간의 절차적 지식이 ML 훈련에 도움이 되지만, 한계가 있을 수 있음을 설명함
학생 노트, 시험, 책 리뷰 등으로 훈련하면 LLM이 더 나아질 수 있음을 제안하며, 이는 매우 흥미로울 것임을 언급함