GN⁺: LLM, 마음 이론(Theory of Mind), 그리고 셰릴의 생일
(github.com/norvig)- 대규모 언어 모델(LLM)이 다른 사람들이 알고 모르는 것을 이해하는 방식인 마음 이론(Theory of Mind)의 정도에 대해 많은 논쟁이 있음
- 이 노트북에서는 9개의 LLM 챗봇에 셰릴의 생일 문제(등장인물들이 각기 다른 시점에서 서로 다른 지식 상태를 가지는 유명한 논리 퍼즐)를 푸는 것을 요청함으로써 이 문제의 한 부분을 탐구함
LLM 성능 요약
- LLM들은 모두 문제에 익숙했기 때문에 프롬프트에서 문제를 설명할 필요가 없었고, 이름만 언급하면 됨
- 대부분은 문제의 정답인 7월 16일을 정확하게 기억해냄
- 그러나 어느 것도 솔루션을 찾는 프로그램을 작성할 수 없었음
- 모든 LLM이 시간이 지남에 따라 등장인물들의 서로 다른 지식 상태를 구별하지 못했음
- 적어도 이 문제와 관련해서는 LLM들에게 마음 이론이 없었음 (이는 LLM이 훈련된 파이썬 프로그램 중 마음 이론을 다루는 프로그램이 거의 없기 때문일 수 있음)
LLM별 응답 요약
실제 인간
- 원래 문제를 정확하게 해결하고 새로운 날짜 세트와 문제의 다른 변형도 처리할 수 있는 프로그램을 작성할 수 있음
- BeliefState라는 개념을 도입했고, 이는 사람이 생일일 가능성이 있다고 믿는 가능한 날짜 집합
- 등장인물의 발언을 특정 날짜를 입력으로 받아 발언과 일치하면 true를 반환하는 함수로 모델링함
ChatGPT 4o
- 문제에 대한 훌륭한 요약으로 시작함
- 일반화된 솔루션을 작성하려 했지만, 시간에 따른 등장인물들의 서로 다른 신념 상태를 추적하지 못했음
Microsoft Copilot
- ChatGPT와 유사한 실수를 저질렀음
Gemini Advanced
- 함수를 여러 개로 정의했다는 점에서 좋았지만, 시간에 따른 상태 변화를 제대로 처리하지 못했음
Meta Llama 405B
- 솔루션을 찾지 못했음
Claude 3.5 Sonnet
- 서로 다른 날짜로 예제를 명시적으로 시도했다는 점에서 좋았지만, 두 번째 예제에 대해 우연히 솔루션이 없다고 정확하게 보고했을 뿐임
Perplexity
- albert_knows와 bernard_knows라는 별도의 변수가 있어 유망해 보였지만 제대로 처리하지 못했음
- 가능한 날짜를 매개변수로 받아들이지만 입력을 무시하고 원래 날짜를 기반으로 month_days를 정의함
HuggingFace Chat
- 클래스 정의를 제안한 유일한 모델이었지만 여전히 비슷한 실수를 저질렀음
- 가능한 날짜 목록을 생성자에서 받아들이지만 원래 문제의 특정 월과 일을 하드코딩함
You.com
- 다른 모델들과 유사한 실수를 했지만, 결과적으로는 날짜를 선택하지 않는 대신 잘못된 날짜를 선택했음
GN+의 의견
- 이 문제는 LLM의 이론적 마음 능력을 평가하는 흥미로운 방법
- 모든 LLM이 정답을 기억했지만 어느 것도 시간에 따른 등장인물들의 지식 상태 변화를 추적하는 프로그램은 만들지 못했음
- 이는 LLM이 훈련된 코드 샘플에 이런 유형의 추론이 포함되지 않았기 때문일 수 있음
- 이런 유형의 추론 문제에 대한 LLM의 성능을 개선하려면, 명시적으로 이런 시나리오를 다루는 프로그램으로 훈련시키는 것이 도움될 수 있음
- LLM의 이론적 마음 능력에 대한 우리의 이해를 넓히기 위해서는 이와 유사한 더 많은 문제를 테스트해 볼 필요가 있음
최첨단의 미래형 산업이므로 맨땅에 미지의 무언가를 구축하는 것과 같습니다. 이때 논리적 상상력도 필요합니다. 애플 창업자를 생각해 보십시오.
셰릴의 생일은 2015년 싱가포르 수학올림피아드 문제로 나오면서 유명해져서 위키 페이지도 있습니다.
(실제로는 2006년에 나온 초기버전도 있다고는 하네요)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
문제는 다음과 같습니다.
알버트와 버나드는 셰릴과 친구가 되었고, 셰릴에게 생일을 묻습니다.
셰릴은 그들에게 10개의 날짜를 알려줍니다.
- 5월 15일, 5월 16일, 5월 19일
- 6월 17일, 6월 18일
- 7월 14일, 7월 16일
- 8월 14일, 8월 15일, 8월 17일
셰릴은 알버트에게는 자기 생일의 "월"을, 버나드에게는 생일의 "일"을 알려주었습니다.
알버트: 난 셰릴의 생일이 언제인지 모르는데, 하지만 버나드도 모를 거라는 건 알아.
버나드: 나도 처음에 셰릴의 생일이 언제인지 몰랐어. 그런데 이제 알겠어.
알버트: 그렇다면 나도 이제 셰릴의 생일이 언제인지 알아.
셰릴의 생일은 언제일까요?
Hacker News 의견
- 오래전에 "Cheryl's Murder"라는 버전을 만들었음. 노트북이 "Cheryl's Birthday" 같은 논리적 귀납 문제를 해결하고 생성할 수 있음
- Gp1-o1이 이 퍼즐을 13초 만에 정확히 해결했으며, 논리적 추론과 설명이 철저함. 퍼즐 정의를 훈련 데이터에서 가져오도록 요청하는 것은 불공평하다고 생각함
- o1 mini가 첫 시도에서 퍼즐을 해결했으며, 노트북에 제공된 예제에서 작동함
-
find_cheryls_birthday
함수는 가능한 날짜를 분석하여 Cheryl의 생일을 찾음
-
- LLM 평가의 문제는 무작위 요소와 프롬프트의 특정 표현이 중요함. Claude에게 문제를 설명하고 Python 코드를 작성하도록 요청했으며, 예외가 발생했지만 수정 후 올바른 답을 얻음
- Python 예제가 훈련 데이터에 쉽게 접근 가능하므로 이 테스트 케이스는 적절하지 않다고 생각함. 모델이 이를 해결하지 못하는 것이 흥미로움
- LLM과 NLP는 언어적 추론에서 계산기와 같은 역할을 함. 자연어는 모호함과 의미의 유연함이 있음. 수학 문제를 문장 형태로 해결하도록 요청하는 것은 시간 낭비임
- AI의 발전에 대한 기대치가 계속 변하고 있음. LLM이 평균적인 인간보다 더 똑똑하며, 실질적인 인지 작업에서 인간을 능가할 수 있음
- LLM의 특정 질문에 대한 답변 능력 부족으로 결론을 내리는 것은 "다음 반복에서 가능할 것"이라는 원칙에 의해 실패할 가능성이 있음
- 이 문제는 논리 문제일 뿐, 진정한 "마음 이론"의 테스트는 아님. LLM이 인간의 행동을 모델링할 수 있는 능력이 있을 가능성이 있음
- Claude 3.5 Sonnet이 첫 시도에서 문제를 해결했으며, 유효한 날짜 세트를 생성하는 Python 프로그램을 작성함. 이 문제를 해결하는 데 어려움이 없었음