LLM, 마음 이론(Theory of Mind), 그리

▲

GN⁺ 2024-10-06 | parent | ★ favorite | on: LLM, 마음 이론(Theory of Mind), 그리고 셰릴의 생일(github.com/norvig)

Hacker News 의견

오래전에 "Cheryl's Murder"라는 버전을 만들었음. 노트북이 "Cheryl's Birthday" 같은 논리적 귀납 문제를 해결하고 생성할 수 있음
Gp1-o1이 이 퍼즐을 13초 만에 정확히 해결했으며, 논리적 추론과 설명이 철저함. 퍼즐 정의를 훈련 데이터에서 가져오도록 요청하는 것은 불공평하다고 생각함
o1 mini가 첫 시도에서 퍼즐을 해결했으며, 노트북에 제공된 예제에서 작동함
- find_cheryls_birthday 함수는 가능한 날짜를 분석하여 Cheryl의 생일을 찾음
LLM 평가의 문제는 무작위 요소와 프롬프트의 특정 표현이 중요함. Claude에게 문제를 설명하고 Python 코드를 작성하도록 요청했으며, 예외가 발생했지만 수정 후 올바른 답을 얻음
Python 예제가 훈련 데이터에 쉽게 접근 가능하므로 이 테스트 케이스는 적절하지 않다고 생각함. 모델이 이를 해결하지 못하는 것이 흥미로움
LLM과 NLP는 언어적 추론에서 계산기와 같은 역할을 함. 자연어는 모호함과 의미의 유연함이 있음. 수학 문제를 문장 형태로 해결하도록 요청하는 것은 시간 낭비임
AI의 발전에 대한 기대치가 계속 변하고 있음. LLM이 평균적인 인간보다 더 똑똑하며, 실질적인 인지 작업에서 인간을 능가할 수 있음
LLM의 특정 질문에 대한 답변 능력 부족으로 결론을 내리는 것은 "다음 반복에서 가능할 것"이라는 원칙에 의해 실패할 가능성이 있음
이 문제는 논리 문제일 뿐, 진정한 "마음 이론"의 테스트는 아님. LLM이 인간의 행동을 모델링할 수 있는 능력이 있을 가능성이 있음
Claude 3.5 Sonnet이 첫 시도에서 문제를 해결했으며, 유효한 날짜 세트를 생성하는 Python 프로그램을 작성함. 이 문제를 해결하는 데 어려움이 없었음