▲GN⁺ 2024-07-09 | parent | ★ favorite | on: 대형 언어 모델의 추론: 기하학적 관점(arxiv.org)Hacker News 의견 AI는 "욕조 곡선"의 가치를 가짐 낮은 수준에서는 자동 완성 기능으로 1-3줄의 코드를 잘 작성함 높은 수준에서는 작업과 관련된 고수준 개념을 설명하는 데 유용함 중간 수준에서는 잘 작동하지 않음 여러 단계의 계획을 작성할 때, 각 부분이 잘 맞지 않음 LLM은 "Mad Libs" 게임과 유사함 문법적으로 맞는 출력을 생성하지만, 맥락이 부족함 통계적 상관관계를 통해 대부분 의미 있는 출력을 생성함 그러나 "추론"은 없고, 단순한 문법 템플릿과 자동 완성임 LLM이 대량의 텍스트를 통해 추론 능력을 구축했다는 주장도 있음 인간이 작성한 추론을 반영하는 것일 수 있음 예를 들어, "로미오가 줄리엣 이후 다른 사랑을 찾아야 하는가?" 같은 질문에 대한 답변은 문학 에세이에서 반영됨 "추론"이라는 용어는 명확하게 정의되지 않음 컴퓨터 과학자, 철학자, 인류학자마다 다른 정의를 가짐 수학적 연역 추론이나 과학적 귀납 추론을 의미한다면, LLM은 그런 능력이 없음 인간의 사고를 모방하려면 언어 패턴 매칭만으로는 충분하지 않음 AI가 인간처럼 "생각"하거나 "추론"할 수 있으려면, 신체화된 지능이 필요함 추론과 기하학의 관계에 대한 질문 개념들이 고유한 기하학적 형태를 가진다는 아이디어와 관련이 있을 수 있음 LLM과 추론에 관한 연구가 나올 때마다 Yan LeCun이 반응함 논문 요약 현대 신경망에서 사용되는 다층 퍼셉트론(MLP) 계층은 입력을 여러 영역으로 분할함 단일 MLP 계층이 분할할 수 있는 영역의 수는 입력의 내재적 차원에 따라 지수적으로 증가함 MLP 계층의 근사 능력을 크게 향상시킬 수 있음 Transformer 아키텍처에서 MLP 계층의 입력은 self-attention 계층임 self-attention 계층의 그래프 밀도는 self-attention 계층의 내재적 차원과 강하게 상관됨 더 밀집된 self-attention 계층은 MLP가 더 잘 작동하도록 함 주어진 질문에 문맥을 추가하면 LLM의 성능이 향상됨 Transformer 아키텍처는 근사 오류가 누적될 수 있음 내재적 차원이 높은 입력을 제공하면 MLP 계층이 더 정밀한 분할을 제공할 수 있음 이 결과가 유지된다면, LLM과 유사한 신경망을 최적화하는 방법에 대한 통찰력을 제공함
Hacker News 의견
AI는 "욕조 곡선"의 가치를 가짐
LLM은 "Mad Libs" 게임과 유사함
LLM이 대량의 텍스트를 통해 추론 능력을 구축했다는 주장도 있음
"추론"이라는 용어는 명확하게 정의되지 않음
추론과 기하학의 관계에 대한 질문
LLM과 추론에 관한 연구가 나올 때마다 Yan LeCun이 반응함
논문 요약