• ChatGPT o1과 Gemini 2.5를 대상으로 환각 현상 유도 방법을 실험하던 중 o3가 출시됨
  • o3는 o1과 달리 인터넷 검색, 이미지 인식, 코드 실행 같은 기능을 갖춘 강력한 멀티 모달 모델임. 그러나 사람이라면 하지 않았을 법한 거짓 답변을 하는 것을 발견함
  • 핵심 가설: LLM은 인간과 달리 감각 기관이 없다. 따라서 시각이나 방향 감각등의 정보가 필요한 질문에 약할 것이다.
  • 환각 유도 질문들
    • 고흐의 '감자 먹는 사람들' 묘사하기
      • 인물 구성 자체를 틀린 o1보다는 낫지만 구체적인 묘사에서 여전히 틀림
    • 모차르트 피아노 소나타 K545의 선율 계이름 말하기
      • 인터넷 검색 기능을 통해 원본 이미지를 찾았는데도 제대로 답변하지 못함
      • 시각 모듈이 악보는 인식하지 못하는 것으로 보임
    • 도보 길찾기 결과
      • 네이버 지도가 검색 결과가 포함되어 있었는데도 잘못 답변함
    • 한영 키보드 전환 문제 (예: cotwlvlxl -> 챗지피티)
      • 입력의 크기가 작을 땐 잘 답변하다가, 크기가 커지니 허위 답변 생성
      • 마치 문제를 풀다가 "에라 모르겠다" 라고 말하며 뛰쳐나가는 것으로 보임
      • 전통적인 알고리즘에는 '에라 모먼트'가 없음. 그냥 오랜 시간 실행되다가 timeout 될 것임
  • 결론
    • 진정한 의미의 감각기관이 없는 것은 아직도 LLM의 유효한 약점임
    • 문제를 풀지 못하는 것은 결함이 아님. 진짜 결함은 거짓 답변을 지어내는 것.
    • 개발사가 추론 능력을 강화하고 새로운 기능에 주력하는 대신, 모르면 모른다고 말할 수 있는 메타인지를 심어줬으면 함