Hacker News 의견
  • AI는 "욕조 곡선"의 가치를 가짐

    • 낮은 수준에서는 자동 완성 기능으로 1-3줄의 코드를 잘 작성함
    • 높은 수준에서는 작업과 관련된 고수준 개념을 설명하는 데 유용함
    • 중간 수준에서는 잘 작동하지 않음
    • 여러 단계의 계획을 작성할 때, 각 부분이 잘 맞지 않음
  • LLM은 "Mad Libs" 게임과 유사함

    • 문법적으로 맞는 출력을 생성하지만, 맥락이 부족함
    • 통계적 상관관계를 통해 대부분 의미 있는 출력을 생성함
    • 그러나 "추론"은 없고, 단순한 문법 템플릿과 자동 완성임
  • LLM이 대량의 텍스트를 통해 추론 능력을 구축했다는 주장도 있음

    • 인간이 작성한 추론을 반영하는 것일 수 있음
    • 예를 들어, "로미오가 줄리엣 이후 다른 사랑을 찾아야 하는가?" 같은 질문에 대한 답변은 문학 에세이에서 반영됨
  • "추론"이라는 용어는 명확하게 정의되지 않음

    • 컴퓨터 과학자, 철학자, 인류학자마다 다른 정의를 가짐
    • 수학적 연역 추론이나 과학적 귀납 추론을 의미한다면, LLM은 그런 능력이 없음
    • 인간의 사고를 모방하려면 언어 패턴 매칭만으로는 충분하지 않음
    • AI가 인간처럼 "생각"하거나 "추론"할 수 있으려면, 신체화된 지능이 필요함
  • 추론과 기하학의 관계에 대한 질문

    • 개념들이 고유한 기하학적 형태를 가진다는 아이디어와 관련이 있을 수 있음
  • LLM과 추론에 관한 연구가 나올 때마다 Yan LeCun이 반응함

  • 논문 요약

    • 현대 신경망에서 사용되는 다층 퍼셉트론(MLP) 계층은 입력을 여러 영역으로 분할함
    • 단일 MLP 계층이 분할할 수 있는 영역의 수는 입력의 내재적 차원에 따라 지수적으로 증가함
    • MLP 계층의 근사 능력을 크게 향상시킬 수 있음
    • Transformer 아키텍처에서 MLP 계층의 입력은 self-attention 계층임
    • self-attention 계층의 그래프 밀도는 self-attention 계층의 내재적 차원과 강하게 상관됨
    • 더 밀집된 self-attention 계층은 MLP가 더 잘 작동하도록 함
    • 주어진 질문에 문맥을 추가하면 LLM의 성능이 향상됨
    • Transformer 아키텍처는 근사 오류가 누적될 수 있음
    • 내재적 차원이 높은 입력을 제공하면 MLP 계층이 더 정밀한 분할을 제공할 수 있음
    • 이 결과가 유지된다면, LLM과 유사한 신경망을 최적화하는 방법에 대한 통찰력을 제공함