대형 언어 모델의 추론: 기하학적 관점

▲

GN⁺ 2024-07-09 | parent | ★ favorite | on: 대형 언어 모델의 추론: 기하학적 관점(arxiv.org)

Hacker News 의견

AI는 "욕조 곡선"의 가치를 가짐
- 낮은 수준에서는 자동 완성 기능으로 1-3줄의 코드를 잘 작성함
- 높은 수준에서는 작업과 관련된 고수준 개념을 설명하는 데 유용함
- 중간 수준에서는 잘 작동하지 않음
- 여러 단계의 계획을 작성할 때, 각 부분이 잘 맞지 않음
LLM은 "Mad Libs" 게임과 유사함
- 문법적으로 맞는 출력을 생성하지만, 맥락이 부족함
- 통계적 상관관계를 통해 대부분 의미 있는 출력을 생성함
- 그러나 "추론"은 없고, 단순한 문법 템플릿과 자동 완성임
LLM이 대량의 텍스트를 통해 추론 능력을 구축했다는 주장도 있음
- 인간이 작성한 추론을 반영하는 것일 수 있음
- 예를 들어, "로미오가 줄리엣 이후 다른 사랑을 찾아야 하는가?" 같은 질문에 대한 답변은 문학 에세이에서 반영됨
"추론"이라는 용어는 명확하게 정의되지 않음
- 컴퓨터 과학자, 철학자, 인류학자마다 다른 정의를 가짐
- 수학적 연역 추론이나 과학적 귀납 추론을 의미한다면, LLM은 그런 능력이 없음
- 인간의 사고를 모방하려면 언어 패턴 매칭만으로는 충분하지 않음
- AI가 인간처럼 "생각"하거나 "추론"할 수 있으려면, 신체화된 지능이 필요함
추론과 기하학의 관계에 대한 질문
- 개념들이 고유한 기하학적 형태를 가진다는 아이디어와 관련이 있을 수 있음
LLM과 추론에 관한 연구가 나올 때마다 Yan LeCun이 반응함
논문 요약
- 현대 신경망에서 사용되는 다층 퍼셉트론(MLP) 계층은 입력을 여러 영역으로 분할함
- 단일 MLP 계층이 분할할 수 있는 영역의 수는 입력의 내재적 차원에 따라 지수적으로 증가함
- MLP 계층의 근사 능력을 크게 향상시킬 수 있음
- Transformer 아키텍처에서 MLP 계층의 입력은 self-attention 계층임
- self-attention 계층의 그래프 밀도는 self-attention 계층의 내재적 차원과 강하게 상관됨
- 더 밀집된 self-attention 계층은 MLP가 더 잘 작동하도록 함
- 주어진 질문에 문맥을 추가하면 LLM의 성능이 향상됨
- Transformer 아키텍처는 근사 오류가 누적될 수 있음
- 내재적 차원이 높은 입력을 제공하면 MLP 계층이 더 정밀한 분할을 제공할 수 있음
- 이 결과가 유지된다면, LLM과 유사한 신경망을 최적화하는 방법에 대한 통찰력을 제공함