Hacker News 의견
  • 오래전에 "Cheryl's Murder"라는 버전을 만들었음. 노트북이 "Cheryl's Birthday" 같은 논리적 귀납 문제를 해결하고 생성할 수 있음
  • Gp1-o1이 이 퍼즐을 13초 만에 정확히 해결했으며, 논리적 추론과 설명이 철저함. 퍼즐 정의를 훈련 데이터에서 가져오도록 요청하는 것은 불공평하다고 생각함
  • o1 mini가 첫 시도에서 퍼즐을 해결했으며, 노트북에 제공된 예제에서 작동함
    • find_cheryls_birthday 함수는 가능한 날짜를 분석하여 Cheryl의 생일을 찾음
  • LLM 평가의 문제는 무작위 요소와 프롬프트의 특정 표현이 중요함. Claude에게 문제를 설명하고 Python 코드를 작성하도록 요청했으며, 예외가 발생했지만 수정 후 올바른 답을 얻음
  • Python 예제가 훈련 데이터에 쉽게 접근 가능하므로 이 테스트 케이스는 적절하지 않다고 생각함. 모델이 이를 해결하지 못하는 것이 흥미로움
  • LLM과 NLP는 언어적 추론에서 계산기와 같은 역할을 함. 자연어는 모호함과 의미의 유연함이 있음. 수학 문제를 문장 형태로 해결하도록 요청하는 것은 시간 낭비임
  • AI의 발전에 대한 기대치가 계속 변하고 있음. LLM이 평균적인 인간보다 더 똑똑하며, 실질적인 인지 작업에서 인간을 능가할 수 있음
  • LLM의 특정 질문에 대한 답변 능력 부족으로 결론을 내리는 것은 "다음 반복에서 가능할 것"이라는 원칙에 의해 실패할 가능성이 있음
  • 이 문제는 논리 문제일 뿐, 진정한 "마음 이론"의 테스트는 아님. LLM이 인간의 행동을 모델링할 수 있는 능력이 있을 가능성이 있음
  • Claude 3.5 Sonnet이 첫 시도에서 문제를 해결했으며, 유효한 날짜 세트를 생성하는 Python 프로그램을 작성함. 이 문제를 해결하는 데 어려움이 없었음