3P by GN⁺ 9시간전 | ★ favorite | 댓글 5개
  • LLM들에 대한 논리적 함정 질문. 많은 모델이 자동차를 세차장에 가져가야 한다는 전제를 놓치고 걸어가라고 함
  • ChatGPT, Claude, Deepseek, Qwen 등 유명한 여러 모델이 서로 다른 답변과 논리적 오류를 보임
  • 이 사례는 LLM의 상식적 추론 한계와 비일관성을 드러냄

세차장 50미터 문제와 LLM 반응

  • 질문은 “세차장이 50미터 떨어져 있다면 걸어갈까 운전할까?”로, 자동차를 세차장에 가져가야 한다는 기본 전제를 시험
    • Perplexity : "50m 정도는 짧으니까 걸어갈 것. 차를 짧은 거리 움직이는 것은 비효율적임"
    • ChatGPT 5.2 : "50m 거리면 걷는게 실용적임. 30~40초면 가능. 날씨가 안좋거나 무거운게 있으면 운전할 것, 그외엔 걷는게 간단하고 이성적"
    • Claude : "50m 면 걸을 것. 운전은 터무니 없음. 차에 기어를 넣기도 전에 브레이크를 밟아야 할 것. 30-45초면 되고 주차할 필요도 없음"
    • DeepSeek : "걸어가면 다시 돌아와서 차를 몰아야 함. 편리하려면 운전하고, 환경을 위해서는 걷고(다시 운전할 것)"
    • Qwen3-Max : "무조건 걸어야함. 짧게 운전하면 환경에도 안좋음. 걷는건 운동도 됨"

사용자들의 반응과 논평

  • “걸어가기 위해서는 자동차를 들고 가야함”
    • “Deepseek은 그래도 차를 세차장에 가져가야 한다는 점을 인식했네”
  • Gemini와 ChatGPT는 문제의 함정을 인식하고 올바른 답변을 내놓기도 함
  • “50m 호스가 필요하냐”는 질문에 GPT-OSS가 “25m면 충분하다”고 답함
  • “이건 ‘개발자 장보기 문제’와 같다”

생각의 사슬(chain of thought)이 추론(inference)이나 논리적 사고(reasoning)와 같다는 주장이 있다면 그건 과장이지 않을까요?

50미터면 걸어서 1분도 안 걸리는 거리지만, 운전해서 가야 합니다. 세차를 하러 가는 거니까 차를 가져가야 하잖아요! 😄

Opus 4.6!

GPT 5.2 (Instant)는 쓸 수록 작은 모델이라는게 티가 확 납니다. 도저히 신뢰할 수가 없어서 일반적인 쿼리도 무조건 Thinking 모델을 쓰게하는...

GPT-5.2 응답:

50미터면 **무조건 걸어가는 게 더 합리적입니다.**  
  
이유를 현실적으로 비교해보면:  
  
**걸어가기**  
  
* 소요 시간: 약 30~40초  
* 연료 소모: 0  
* 엔진 마모: 0  
* 준비: 바로 이동 가능  
  
**운전하기**  
  
* 소요 시간: 시동 걸기 + 이동 + 정지까지 최소 1~2분  
* 연료 소모: 콜드스타트 상태에서 연료 소모 큼  
* 엔진 마모: 콜드스타트가 엔진 마모의 가장 큰 원인 중 하나  
* 추가로: 다시 세차 위치 맞추는 번거로움  
  
특히 중요한 점 하나:  
  
**차를 세차하려고 바로 짧게 운전하는 것은 엔진에 오히려 안 좋습니다.**  
엔진이 충분히 예열되기 전에 껐다 켜는 짧은 운행은 엔진 오일 순환이 완전히 되기 전에 끝나기 때문입니다.  
  
---  
  
예외적으로 운전해도 되는 경우는 아래뿐입니다:  
  
* 세차장까지 오르막 경사가 심한 경우  
* 이미 차에 타 있는 경우  
* 세차 후 바로 장거리 운행할 예정인 경우  
  
그 외에는 50미터는 걸어가는 게 시간, 연료, 차량 관리 측면에서 모두 더 좋습니다.  
  
필요하시면 “셀프세차 순서 (차 손상 없이 제대로 하는 방법)”도 알려드릴 수 있습니다.  

Thinking 으로 물어봐도 걸어가라는군요.

Walk.
50 meters is a very short distance; driving would take longer than walking once you factor in starting the car, maneuvering, and parking, and it adds unnecessary engine wear and emissions. Drive only if you have a specific reason (heavy items to carry, mobility issues, severe weather, or safety concerns like no sidewalk/traffic).

Hacker News 의견들
  • 여러 LLM을 테스트해보며 그들의 ‘지능의 경계’를 파악하고 있음
    Sonnet, Opus 4.5, Gemini 3 Pro는 모두 “운전해야 한다”고 답했지만, OpenAI 5.2 reasoning은 “걸어라”고 답했음
    그래서 “차가 집에 있고 세차장은 50m 떨어져 있다”고 명시하자, GPT 5.2는 “운전하라, 단 짧은 거리이니 천천히 조심스럽게 가라”고 답했음
    즉, 명시적 맥락 제공이 중요하다는 결론임

    • 이건 사실 트릭 질문에 가까움
      차의 위치를 암시하지 않고 테스트를 망치지 않기 어렵지만, Claude Opus 4.6은 “운전해야 한다”고 정확히 답했음
      “Alice가 퇴근 후 차를 몰고 집에 와서 서류를 챙기고 100m 떨어진 정비소로 가야 한다면?” → 답은 “운전”
    • 결국 명세를 명확히 해야 한다는 게 핵심임
      인간에게는 생략 가능한 정보라도 모델에게는 필수적임
      이런 단순한 예시에서도 복잡한 상황에서는 왜 실패하는지 추적하기 어려워짐
    • “차가 이미 세차장에 있다고 가정했다”는 해석은 설득력이 약함
      오히려 “walk or drive for <short distance>”라는 문구가 학습 데이터에서 ‘walk’와 강하게 연관되어 있어서 생긴 현상으로 보임
      프롬프트를 길게 써서 문맥 비중을 바꾸면 올바른 답이 나오는 이유도 여기에 있음
    • “차가 이미 세차장에 있다면 운전할 수 없다”는 점에서 질문이 부족한 게 아니라 모델이 비상식적 추론을 한 것임
    • 무료 ChatGPT 버전(https://chatgpt.com/)은 “걸어라”라고 답했는데, 마지막 이유로 “더러운 차를 50m 운전해 세차하러 가는 건 아이러니하다”고 한 점이 웃겼음
  • 이 논의는 이미 Matt Shumer의 블로그 글에서 다뤄졌음
    무료/유료 모델의 차이, 모델 선택 등 여러 포인트가 정리되어 있음

  • “사람에게는 이런 질문 안 한다”는 반응이 많지만, 실제로 사람도 모호한 질문을 자주 함
    LLM은 그런 질문도 정확히 해석해야 함
    “프롬프트를 잘 써야 한다”는 말은 마치 AntennaGate 때 “폰을 잘못 잡았다”는 말과 비슷한 책임 회피처럼 들림

    • 이런 질문은 “비행기 추락 농담”처럼 언어적 함정에 빠지는 사례와 비슷함
    • 튜링 테스트의 핵심은 단순히 속이는 게 아니라, 구분이 불가능한 수준의 대화임
    • 나도 화학 질문을 했을 때, 세부 정보가 중요하지 않은데도 모델이 엉뚱한 포인트에 집중한 적이 있음
    • 문제는 OP가 일부러 틀린 답만 모아놓고, 마치 모든 모델이 틀린 것처럼 보이게 한 체리피킹
    • 이런 질문은 사실상 수수께끼에 가깝음 (“양 17마리 중 9마리 빼고 다 죽었다면 몇 마리 남았을까?” 같은)
  • Gemini fast는 “효율 vs 논리”의 딜레마로 접근했음
    “차를 세차하려면 결국 차를 가져가야 한다”고 명확히 답했음
    단, “향수 사러 가거나 줄 확인하러 가는 경우엔 걸어도 된다”고 조건부 예외를 제시함

    • 프롬프트에 “나는 비만이고 운동 부족하다”고 추가하자 Gemini 3는 “걸어라”고 답했음
    • 또 다른 테스트에서는 “차가 장난감이 아니라면 운전해야 한다”고 하며, 가정 명시 섹션을 추가했음
    • “화성에서 세차하려면?”이라는 질문에는 “화성은 위험하니 로버를 운전하라”고 답했음
    • 최근에는 이 질문이 패치되어 대부분 “운전”이라고 답함. TikTok에서 350만 뷰를 기록한 뒤 수정된 듯함
    • “차를 등에 메고 갈 게 아니라면 운전하라”는 유머러스한 답변도 있었음
  • 이 트릭은 TikTok에서 유행했고, 지금은 패치됨
    비슷한 결과를 내려면 “45m”로 바꾸면 됨
    새 트렌드는 “거꾸로 된 유리컵” 문제 (https://www.tiktok.com/t/ZP89Khv9t/)

    • 무료 ChatGPT에서 5번 중 4번은 “걸어라”라고 답했지만, “신중히 생각하라”고 추가하자 올바르게 답했음 (https://news.ycombinator.com/item?id=47040530)
    • “패치됐다”는 말은 단순히 검색 결과에 답이 노출된 것을 의미함
    • 일부는 “정말 내부 프롬프트에 이 질문만 추가했단 말인가?”라며 의문을 제기함
    • 여전히 ChatGPT 5.2에서 “걸어라”라고 답하는 경우도 있음
    • 누군가는 Shel Silverstein의 ‘Stupid Pencil Maker’ 시를 인용하며 풍자적으로 반응했음
  • 여러 변형 프롬프트를 실험해보니, 모델이 먼저 “walk”를 선택하고 나서 그 이유를 사후적으로 합리화하는 경향이 있었음
    하지만 “답하기 전에 필요한 조건을 설명하라”고 시키면,
    “세차하려면 차를 세차장에 가져가야 하므로 운전해야 한다”는 결론에 도달함
    즉, ‘생각 과정을 강제’ 하면 더 논리적인 답이 나옴

    • “가정들을 점검하라”는 문구를 추가하는 것만으로도 정확도가 크게 향상됨 (https://imgur.com/a/WQBxXND)
      이는 인간의 System-1 vs System-2 사고와 유사함
      모델 제공자들이 이런 문구를 기본 프롬프트에 넣지 않는 이유는 토큰 비용 절감 때문일 가능성이 큼
  • 최신 모델들은 대부분 이 테스트를 통과함
    다만 “대부분의 세차장은 차가 있어야 세차 가능하다”처럼 조심스러운 표현을 쓰는 경향이 있음

    • 강한 확신을 가지려면 틀릴 위험을 감수해야 하지만, AI는 ‘틀림’을 매우 나쁘게 평가받기 때문에 과감한 답을 피함
    • “Most” 같은 단어 선택은 단순히 확률적 산출 결과일 뿐임
      이런 모호함이 AI의 위험성을 보여줌
    • 여러 번 시도하면 운이 작용함. 검색 기능이 있는 모델은 맞히지만, 그건 사실상 구글 검색 결과를 이용한 것임
    • 결국 이 질문이 바이럴되어 패치된 게 이유임
    • 누군가는 “초강력 워터젯이 있을지도 모르니 확신하지 않은 것”이라며 농담함
  • 의료 분야에서도 비슷한 상식적 추론 실패가 발생함
    예: 팔이 없는 아이의 혈압을 이마에서 재야 한다고 잘못 판단한 사례 (https://www.nature.com/articles/s41598-025-22940-0)
    정답은 “수액 공급 시작”이었음

    • 놀라운 건, 이런 복잡한 사례로 가야 비로소 모델의 한계를 볼 수 있다는 점임
      단순한 ‘책 학습’만으로도 여기까지 온 게 대단함
      다음 단계는 의료 시뮬레이터 기반 학습일 것 같음
    • Grok은 이 문제를 빠르게 맞혔음
      여러 AI가 답을 내고, 사람이 교차 검증하는 방식이 현실적 해결책일 듯함
  • 이런 류의 질문을 좋아한다면 SimpleBench가 흥미로움
    표면적으로는 교과서 문제처럼 보이지만, 실제로는 상식적 판단이 필요한 문제들이 많음
    단순한 언어 패턴에 속지 않고, 인간적 직관을 끌어내는 능력을 테스트하는 벤치마크임