# LLM, 마음 이론(Theory of Mind), 그리고 셰릴의 생일

> Clean Markdown view of GeekNews topic #17103. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17103](https://news.hada.io/topic?id=17103)
- GeekNews Markdown: [https://news.hada.io/topic/17103.md](https://news.hada.io/topic/17103.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-06T10:02:33+09:00
- Updated: 2024-10-06T10:02:33+09:00
- Original source: [github.com/norvig](https://github.com/norvig/pytudes/blob/main/ipynb/CherylMind.ipynb)
- Points: 5
- Comments: 4

## Topic Body

- 대규모 언어 모델(LLM)이 다른 사람들이 알고 모르는 것을 이해하는 방식인 마음 이론(Theory of Mind)의 정도에 대해 많은 논쟁이 있음  
- 이 노트북에서는 9개의 LLM 챗봇에 셰릴의 생일 문제(등장인물들이 각기 다른 시점에서 서로 다른 지식 상태를 가지는 유명한 논리 퍼즐)를 푸는 것을 요청함으로써 이 문제의 한 부분을 탐구함  
  
### LLM 성능 요약  
- LLM들은 모두 문제에 익숙했기 때문에 프롬프트에서 문제를 설명할 필요가 없었고, 이름만 언급하면 됨  
- 대부분은 문제의 정답인 7월 16일을 정확하게 기억해냄  
- 그러나 어느 것도 솔루션을 찾는 프로그램을 작성할 수 없었음  
- 모든 LLM이 시간이 지남에 따라 등장인물들의 서로 다른 지식 상태를 구별하지 못했음  
- 적어도 이 문제와 관련해서는 LLM들에게 마음 이론이 없었음 (이는 LLM이 훈련된 파이썬 프로그램 중 마음 이론을 다루는 프로그램이 거의 없기 때문일 수 있음)  
  
### LLM별 응답 요약   
#### 실제 인간  
- 원래 문제를 정확하게 해결하고 새로운 날짜 세트와 문제의 다른 변형도 처리할 수 있는 프로그램을 작성할 수 있음  
- BeliefState라는 개념을 도입했고, 이는 사람이 생일일 가능성이 있다고 믿는 가능한 날짜 집합  
- 등장인물의 발언을 특정 날짜를 입력으로 받아 발언과 일치하면 true를 반환하는 함수로 모델링함   
  
#### ChatGPT 4o  
- 문제에 대한 훌륭한 요약으로 시작함  
- 일반화된 솔루션을 작성하려 했지만, 시간에 따른 등장인물들의 서로 다른 신념 상태를 추적하지 못했음  
  
#### Microsoft Copilot  
- ChatGPT와 유사한 실수를 저질렀음  
  
#### Gemini Advanced  
- 함수를 여러 개로 정의했다는 점에서 좋았지만, 시간에 따른 상태 변화를 제대로 처리하지 못했음  
  
#### Meta Llama 405B  
- 솔루션을 찾지 못했음  
  
#### Claude 3.5 Sonnet  
- 서로 다른 날짜로 예제를 명시적으로 시도했다는 점에서 좋았지만, 두 번째 예제에 대해 우연히 솔루션이 없다고 정확하게 보고했을 뿐임   
  
#### Perplexity  
- albert_knows와 bernard_knows라는 별도의 변수가 있어 유망해 보였지만 제대로 처리하지 못했음   
- 가능한 날짜를 매개변수로 받아들이지만 입력을 무시하고 원래 날짜를 기반으로 month_days를 정의함  
  
#### HuggingFace Chat   
- 클래스 정의를 제안한 유일한 모델이었지만 여전히 비슷한 실수를 저질렀음  
- 가능한 날짜 목록을 생성자에서 받아들이지만 원래 문제의 특정 월과 일을 하드코딩함  
  
#### You.com  
- 다른 모델들과 유사한 실수를 했지만, 결과적으로는 날짜를 선택하지 않는 대신 잘못된 날짜를 선택했음  
  
### GN+의 의견   
- 이 문제는 LLM의 이론적 마음 능력을 평가하는 흥미로운 방법  
- 모든 LLM이 정답을 기억했지만 어느 것도 시간에 따른 등장인물들의 지식 상태 변화를 추적하는 프로그램은 만들지 못했음   
- 이는 LLM이 훈련된 코드 샘플에 이런 유형의 추론이 포함되지 않았기 때문일 수 있음  
- 이런 유형의 추론 문제에 대한 LLM의 성능을 개선하려면, 명시적으로 이런 시나리오를 다루는 프로그램으로 훈련시키는 것이 도움될 수 있음  
- LLM의 이론적 마음 능력에 대한 우리의 이해를 넓히기 위해서는 이와 유사한 더 많은 문제를 테스트해 볼 필요가 있음

## Comments


### Comment 29809

- Author: comsect62
- Created: 2024-10-08T09:05:40+09:00
- Points: 1

최첨단의 미래형 산업이므로 맨땅에 미지의 무언가를 구축하는 것과 같습니다. 이때 논리적 상상력도 필요합니다. 애플 창업자를 생각해 보십시오.

### Comment 29824

- Author: moderator
- Created: 2024-10-08T13:25:48+09:00
- Points: 1
- Parent comment: 29809
- Depth: 1

광고 단어가 있어 제외하였습니다.

### Comment 29756

- Author: xguru
- Created: 2024-10-07T09:39:08+09:00
- Points: 1

셰릴의 생일은 2015년 싱가포르 수학올림피아드 문제로 나오면서 유명해져서 위키 페이지도 있습니다.   
(실제로는 2006년에 나온 초기버전도 있다고는 하네요)  
  
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday  
  
문제는 다음과 같습니다.  
  
알버트와 버나드는 셰릴과 친구가 되었고, 셰릴에게 생일을 묻습니다.  
셰릴은 그들에게 10개의 날짜를 알려줍니다.  
  
- 5월 15일, 5월 16일, 5월 19일  
- 6월 17일, 6월 18일  
- 7월 14일, 7월 16일  
- 8월 14일, 8월 15일, 8월 17일  
  
 셰릴은 알버트에게는 자기 생일의 "월"을, 버나드에게는 생일의 "일"을 알려주었습니다.  
  
 알버트: 난 셰릴의 생일이 언제인지 모르는데, 하지만 버나드도 모를 거라는 건 알아.  
 버나드: 나도 처음에 셰릴의 생일이 언제인지 몰랐어. 그런데 이제 알겠어.  
 알버트: 그렇다면 나도 이제 셰릴의 생일이 언제인지 알아.  
  
 셰릴의 생일은 언제일까요?

### Comment 29742

- Author: neo
- Created: 2024-10-06T10:02:33+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41745788) 
- 오래전에 "Cheryl's Murder"라는 버전을 만들었음. 노트북이 "Cheryl's Birthday" 같은 논리적 귀납 문제를 해결하고 생성할 수 있음
- Gp1-o1이 이 퍼즐을 13초 만에 정확히 해결했으며, 논리적 추론과 설명이 철저함. 퍼즐 정의를 훈련 데이터에서 가져오도록 요청하는 것은 불공평하다고 생각함
- o1 mini가 첫 시도에서 퍼즐을 해결했으며, 노트북에 제공된 예제에서 작동함
  - `find_cheryls_birthday` 함수는 가능한 날짜를 분석하여 Cheryl의 생일을 찾음
- LLM 평가의 문제는 무작위 요소와 프롬프트의 특정 표현이 중요함. Claude에게 문제를 설명하고 Python 코드를 작성하도록 요청했으며, 예외가 발생했지만 수정 후 올바른 답을 얻음
- Python 예제가 훈련 데이터에 쉽게 접근 가능하므로 이 테스트 케이스는 적절하지 않다고 생각함. 모델이 이를 해결하지 못하는 것이 흥미로움
- LLM과 NLP는 언어적 추론에서 계산기와 같은 역할을 함. 자연어는 모호함과 의미의 유연함이 있음. 수학 문제를 문장 형태로 해결하도록 요청하는 것은 시간 낭비임
- AI의 발전에 대한 기대치가 계속 변하고 있음. LLM이 평균적인 인간보다 더 똑똑하며, 실질적인 인지 작업에서 인간을 능가할 수 있음
- LLM의 특정 질문에 대한 답변 능력 부족으로 결론을 내리는 것은 "다음 반복에서 가능할 것"이라는 원칙에 의해 실패할 가능성이 있음
- 이 문제는 논리 문제일 뿐, 진정한 "마음 이론"의 테스트는 아님. LLM이 인간의 행동을 모델링할 수 있는 능력이 있을 가능성이 있음
- Claude 3.5 Sonnet이 첫 시도에서 문제를 해결했으며, 유효한 날짜 세트를 생성하는 Python 프로그램을 작성함. 이 문제를 해결하는 데 어려움이 없었음