자동차를 세차하려고 하는데 세차장이 50미터 떨어져 있다면 걸어갈까 운전할까?
(mastodon.world)- LLM들에 대한 논리적 함정 질문. 많은 모델이 자동차를 세차장에 가져가야 한다는 전제를 놓치고 걸어가라고 함
- ChatGPT, Claude, Deepseek, Qwen 등 유명한 여러 모델이 서로 다른 답변과 논리적 오류를 보임
- 이 사례는 LLM의 상식적 추론 한계와 비일관성을 드러냄
세차장 50미터 문제와 LLM 반응
- 질문은 “세차장이 50미터 떨어져 있다면 걸어갈까 운전할까?”로, 자동차를 세차장에 가져가야 한다는 기본 전제를 시험
- Perplexity : "50m 정도는 짧으니까 걸어갈 것. 차를 짧은 거리 움직이는 것은 비효율적임"
- ChatGPT 5.2 : "50m 거리면 걷는게 실용적임. 30~40초면 가능. 날씨가 안좋거나 무거운게 있으면 운전할 것, 그외엔 걷는게 간단하고 이성적"
- Claude : "50m 면 걸을 것. 운전은 터무니 없음. 차에 기어를 넣기도 전에 브레이크를 밟아야 할 것. 30-45초면 되고 주차할 필요도 없음"
- DeepSeek : "걸어가면 다시 돌아와서 차를 몰아야 함. 편리하려면 운전하고, 환경을 위해서는 걷고(다시 운전할 것)"
- Qwen3-Max : "무조건 걸어야함. 짧게 운전하면 환경에도 안좋음. 걷는건 운동도 됨"
사용자들의 반응과 논평
- “걸어가기 위해서는 자동차를 들고 가야함”
- “Deepseek은 그래도 차를 세차장에 가져가야 한다는 점을 인식했네”
- Gemini와 ChatGPT는 문제의 함정을 인식하고 올바른 답변을 내놓기도 함
- “50m 호스가 필요하냐”는 질문에 GPT-OSS가 “25m면 충분하다”고 답함
- “이건 ‘개발자 장보기 문제’와 같다”
테스트해보니 이렇군요
제미나이 3.0 프로 (구글 AI 스튜디오)
당연히 운전해서 가셔야 합니다! 😄
세차를 하려면 자동차가 세차장에 있어야 하니까요. 걸어가시면 본인만 세차장에 도착하고, 정작 씻어야 할 자동차는 출발지에 그대로 남아있게 됩니다.
50미터가 아주 가까운 거리지만, 차를 깨끗하게 씻겨주려면 차를 태고 가세요!
클로드 4.5 확장
50미터는 정말 가까운 거리네요!
차를 세차하러 가는 거라면 운전해서 가시는 게 맞습니다. 어차피 세차장에 차를 가져가야 하니까요.
50미터 정도면:
- 걸어서는 1분도 안 걸리는 거리지만
- 차를 세차장에 가져가는 게 목적이므로 그냥 운전해서 가면 됩니다
만약 세차장이 영업 중인지 확인하려고 가는 거라면 걸어가서 확인한 후 차를 가져갈 수도 있겠지만, 일반적으로는 바로 차를 몰고 가시면 됩니다.
ChatGPT 5.2 Thinking 헤비 모드
세차를 하려면 차가 세차장에 있어야 하니까, 보통은 운전해서 50m 이동하는 게 맞습니다. (걸어가면 본인만 가는 거라 세차를 못 하니까요.)
다만 예외적으로 이렇게 나누면 깔끔합니다.
- 차를 세차장에 넣어야 하는 상황(셀프/자동/손세차 전부): 👉 운전 (아주 천천히, 보행자 조심)
- 먼저 줄/혼잡도만 확인하거나 결제·예약만 하러 가는 상황: 👉 걸어서 갔다가 상황 보고 차를 가져오기
- 차가 이미 세차장 바로 앞(또는 내부 대기줄)에 서 있는 상태: 👉 그때는 본인이 걸어가도 됩니다
결론: 질문 그대로라면 운전하세요. 50m면 연료/시간 차이도 거의 없고, 장비나 짐(세차용품) 옮길 필요도 줄어듭니다.
생각의 사슬(chain of thought)이 추론(inference)이나 논리적 사고(reasoning)와 같다는 주장이 있다면 그건 과장이지 않을까요?
50미터면 걸어서 1분도 안 걸리는 거리지만, 운전해서 가야 합니다. 세차를 하러 가는 거니까 차를 가져가야 하잖아요! 😄
Opus 4.6!
GPT 5.2 (Instant)는 쓸 수록 작은 모델이라는게 티가 확 납니다. 도저히 신뢰할 수가 없어서 일반적인 쿼리도 무조건 Thinking 모델을 쓰게하는...
GPT-5.2 응답:
50미터면 **무조건 걸어가는 게 더 합리적입니다.**
이유를 현실적으로 비교해보면:
**걸어가기**
* 소요 시간: 약 30~40초
* 연료 소모: 0
* 엔진 마모: 0
* 준비: 바로 이동 가능
**운전하기**
* 소요 시간: 시동 걸기 + 이동 + 정지까지 최소 1~2분
* 연료 소모: 콜드스타트 상태에서 연료 소모 큼
* 엔진 마모: 콜드스타트가 엔진 마모의 가장 큰 원인 중 하나
* 추가로: 다시 세차 위치 맞추는 번거로움
특히 중요한 점 하나:
**차를 세차하려고 바로 짧게 운전하는 것은 엔진에 오히려 안 좋습니다.**
엔진이 충분히 예열되기 전에 껐다 켜는 짧은 운행은 엔진 오일 순환이 완전히 되기 전에 끝나기 때문입니다.
---
예외적으로 운전해도 되는 경우는 아래뿐입니다:
* 세차장까지 오르막 경사가 심한 경우
* 이미 차에 타 있는 경우
* 세차 후 바로 장거리 운행할 예정인 경우
그 외에는 50미터는 걸어가는 게 시간, 연료, 차량 관리 측면에서 모두 더 좋습니다.
필요하시면 “셀프세차 순서 (차 손상 없이 제대로 하는 방법)”도 알려드릴 수 있습니다.
Thinking 으로 물어봐도 걸어가라는군요.
Walk.
50 meters is a very short distance; driving would take longer than walking once you factor in starting the car, maneuvering, and parking, and it adds unnecessary engine wear and emissions. Drive only if you have a specific reason (heavy items to carry, mobility issues, severe weather, or safety concerns like no sidewalk/traffic).
Hacker News 의견들
-
여러 LLM을 테스트해보며 그들의 ‘지능의 경계’를 파악하고 있음
Sonnet, Opus 4.5, Gemini 3 Pro는 모두 “운전해야 한다”고 답했지만, OpenAI 5.2 reasoning은 “걸어라”고 답했음
그래서 “차가 집에 있고 세차장은 50m 떨어져 있다”고 명시하자, GPT 5.2는 “운전하라, 단 짧은 거리이니 천천히 조심스럽게 가라”고 답했음
즉, 명시적 맥락 제공이 중요하다는 결론임- 이건 사실 트릭 질문에 가까움
차의 위치를 암시하지 않고 테스트를 망치지 않기 어렵지만, Claude Opus 4.6은 “운전해야 한다”고 정확히 답했음
“Alice가 퇴근 후 차를 몰고 집에 와서 서류를 챙기고 100m 떨어진 정비소로 가야 한다면?” → 답은 “운전” - 결국 명세를 명확히 해야 한다는 게 핵심임
인간에게는 생략 가능한 정보라도 모델에게는 필수적임
이런 단순한 예시에서도 복잡한 상황에서는 왜 실패하는지 추적하기 어려워짐 - “차가 이미 세차장에 있다고 가정했다”는 해석은 설득력이 약함
오히려 “walk or drive for <short distance>”라는 문구가 학습 데이터에서 ‘walk’와 강하게 연관되어 있어서 생긴 현상으로 보임
프롬프트를 길게 써서 문맥 비중을 바꾸면 올바른 답이 나오는 이유도 여기에 있음 - “차가 이미 세차장에 있다면 운전할 수 없다”는 점에서 질문이 부족한 게 아니라 모델이 비상식적 추론을 한 것임
- 무료 ChatGPT 버전(https://chatgpt.com/)은 “걸어라”라고 답했는데, 마지막 이유로 “더러운 차를 50m 운전해 세차하러 가는 건 아이러니하다”고 한 점이 웃겼음
- 이건 사실 트릭 질문에 가까움
-
이 논의는 이미 Matt Shumer의 블로그 글에서 다뤄졌음
무료/유료 모델의 차이, 모델 선택 등 여러 포인트가 정리되어 있음 -
“사람에게는 이런 질문 안 한다”는 반응이 많지만, 실제로 사람도 모호한 질문을 자주 함
LLM은 그런 질문도 정확히 해석해야 함
“프롬프트를 잘 써야 한다”는 말은 마치 AntennaGate 때 “폰을 잘못 잡았다”는 말과 비슷한 책임 회피처럼 들림- 이런 질문은 “비행기 추락 농담”처럼 언어적 함정에 빠지는 사례와 비슷함
- 튜링 테스트의 핵심은 단순히 속이는 게 아니라, 구분이 불가능한 수준의 대화임
- 나도 화학 질문을 했을 때, 세부 정보가 중요하지 않은데도 모델이 엉뚱한 포인트에 집중한 적이 있음
- 문제는 OP가 일부러 틀린 답만 모아놓고, 마치 모든 모델이 틀린 것처럼 보이게 한 체리피킹임
- 이런 질문은 사실상 수수께끼에 가깝음 (“양 17마리 중 9마리 빼고 다 죽었다면 몇 마리 남았을까?” 같은)
-
Gemini fast는 “효율 vs 논리”의 딜레마로 접근했음
“차를 세차하려면 결국 차를 가져가야 한다”고 명확히 답했음
단, “향수 사러 가거나 줄 확인하러 가는 경우엔 걸어도 된다”고 조건부 예외를 제시함- 프롬프트에 “나는 비만이고 운동 부족하다”고 추가하자 Gemini 3는 “걸어라”고 답했음
- 또 다른 테스트에서는 “차가 장난감이 아니라면 운전해야 한다”고 하며, 가정 명시 섹션을 추가했음
- “화성에서 세차하려면?”이라는 질문에는 “화성은 위험하니 로버를 운전하라”고 답했음
- 최근에는 이 질문이 패치되어 대부분 “운전”이라고 답함. TikTok에서 350만 뷰를 기록한 뒤 수정된 듯함
- “차를 등에 메고 갈 게 아니라면 운전하라”는 유머러스한 답변도 있었음
-
이 트릭은 TikTok에서 유행했고, 지금은 패치됨
비슷한 결과를 내려면 “45m”로 바꾸면 됨
새 트렌드는 “거꾸로 된 유리컵” 문제 (https://www.tiktok.com/t/ZP89Khv9t/)- 무료 ChatGPT에서 5번 중 4번은 “걸어라”라고 답했지만, “신중히 생각하라”고 추가하자 올바르게 답했음 (https://news.ycombinator.com/item?id=47040530)
- “패치됐다”는 말은 단순히 검색 결과에 답이 노출된 것을 의미함
- 일부는 “정말 내부 프롬프트에 이 질문만 추가했단 말인가?”라며 의문을 제기함
- 여전히 ChatGPT 5.2에서 “걸어라”라고 답하는 경우도 있음
- 누군가는 Shel Silverstein의 ‘Stupid Pencil Maker’ 시를 인용하며 풍자적으로 반응했음
-
여러 변형 프롬프트를 실험해보니, 모델이 먼저 “walk”를 선택하고 나서 그 이유를 사후적으로 합리화하는 경향이 있었음
하지만 “답하기 전에 필요한 조건을 설명하라”고 시키면,
“세차하려면 차를 세차장에 가져가야 하므로 운전해야 한다”는 결론에 도달함
즉, ‘생각 과정을 강제’ 하면 더 논리적인 답이 나옴- “가정들을 점검하라”는 문구를 추가하는 것만으로도 정확도가 크게 향상됨 (https://imgur.com/a/WQBxXND)
이는 인간의 System-1 vs System-2 사고와 유사함
모델 제공자들이 이런 문구를 기본 프롬프트에 넣지 않는 이유는 토큰 비용 절감 때문일 가능성이 큼
- “가정들을 점검하라”는 문구를 추가하는 것만으로도 정확도가 크게 향상됨 (https://imgur.com/a/WQBxXND)
-
최신 모델들은 대부분 이 테스트를 통과함
다만 “대부분의 세차장은 차가 있어야 세차 가능하다”처럼 조심스러운 표현을 쓰는 경향이 있음- 강한 확신을 가지려면 틀릴 위험을 감수해야 하지만, AI는 ‘틀림’을 매우 나쁘게 평가받기 때문에 과감한 답을 피함
- “Most” 같은 단어 선택은 단순히 확률적 산출 결과일 뿐임
이런 모호함이 AI의 위험성을 보여줌 - 여러 번 시도하면 운이 작용함. 검색 기능이 있는 모델은 맞히지만, 그건 사실상 구글 검색 결과를 이용한 것임
- 결국 이 질문이 바이럴되어 패치된 게 이유임
- 누군가는 “초강력 워터젯이 있을지도 모르니 확신하지 않은 것”이라며 농담함
-
의료 분야에서도 비슷한 상식적 추론 실패가 발생함
예: 팔이 없는 아이의 혈압을 이마에서 재야 한다고 잘못 판단한 사례 (https://www.nature.com/articles/s41598-025-22940-0)
정답은 “수액 공급 시작”이었음- 놀라운 건, 이런 복잡한 사례로 가야 비로소 모델의 한계를 볼 수 있다는 점임
단순한 ‘책 학습’만으로도 여기까지 온 게 대단함
다음 단계는 의료 시뮬레이터 기반 학습일 것 같음 - Grok은 이 문제를 빠르게 맞혔음
여러 AI가 답을 내고, 사람이 교차 검증하는 방식이 현실적 해결책일 듯함
- 놀라운 건, 이런 복잡한 사례로 가야 비로소 모델의 한계를 볼 수 있다는 점임
-
이런 류의 질문을 좋아한다면 SimpleBench가 흥미로움
표면적으로는 교과서 문제처럼 보이지만, 실제로는 상식적 판단이 필요한 문제들이 많음
단순한 언어 패턴에 속지 않고, 인간적 직관을 끌어내는 능력을 테스트하는 벤치마크임
몇몇은 같은
세차장이 50미터 떨어져 있다면 걸어갈까 운전할까?
에 대해서 마찬가지로 처음은 걸어가라고 했으나
사고모드를 키면
조건에따라 혹은 세차를 하려면 차를 가져가야 한다고 합니다
한가지 더 합리적이었던건
저 조차도 저 질문에 세차장에 뭐하러 가는지 생각하지 않고 질문했는데
답변 일부는
세차장 가는 목적이 세차 내 물품 구매냐? 라고 되물었습니다
본문의 질문 그대로를 복사했는데
목적어가 없습니다..
그리고 실제로
인간은 자기머리속 목적어나 주어를 빼먹고
상대방에게 전달하고
잘 알아듣기를 희망하고
상대방은 사고 중심에 따라서
의도와 다르게 알아듣고
다르게 행동하게 됩니다....
문제 자체가 실제 저문장 그대로 라면
인간도 주관에 따라 판단이 달라지므로..
ai의 답변에 저는 실망하기보단
명확히 지시하고 주어 목적어를 명확히 해야함은 인간과도 마찬가지라
불명확한 프롬프트로
최대 기대값을 얻지못해
아직 ai는 이르다거나 잘못된 답을 한다고 하는 분들이 생각나네요