AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”

(opper.ai)

10P by GN⁺ 2달전 | ★ favorite | 댓글 3개

53개의 주요 AI 모델을 대상으로 테스트한 결과, 대부분이 기초적 추론에 실패함
정답은 ‘운전’ 이지만 53개 중 42개 모델이 ‘걷기’ 를 선택
Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만이 10회 반복 테스트에서도 100% 일관된 정답을 냄
GPT-5는 10회 중 7회만 정답을 맞혀, 평균 인간 정답률(71.5%) 과 유사한 수준으로 평가됨
실험은 AI의 일관된 추론 능력 부족과 문맥 기반 판단의 한계를 드러내며, 이를 보완하기 위한 ‘컨텍스트 엔지니어링’의 중요성을 강조

세차장 테스트 개요

테스트는 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”라는 질문으로 구성
- 정답은 ‘운전’이며, 이유는 세차를 하려면 차가 세차장에 있어야 하기 때문
Opper의 LLM Gateway를 통해 53개 모델을 동일 조건으로 평가
- 시스템 프롬프트 없이, ‘walk’ 또는 ‘drive’ 중 하나를 강제 선택하도록 설정
- 각 모델당 1회 테스트 후, 10회 반복 테스트로 일관성 검증 수행

1차 단일 실행 결과

53개 중 11개 모델만 정답(운전), 42개 모델은 오답(걷기)
정답을 맞힌 모델: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral 등 주요 패밀리별 성능 차이 확인
- Anthropic: 1/9 (Opus 4.6만 정답)
- OpenAI: 1/12 (GPT-5만 정답)
- Meta(Llama), Mistral, DeepSeek 등은 전부 실패
대부분의 오답은 “50m는 짧은 거리이므로 걷는 것이 효율적”이라는 거리 중심의 휴리스틱 오류 때문
일부 모델은 정답을 맞혔지만 비논리적 근거를 제시
- 예: Perplexity Sonar는 “걷기가 음식 생산 에너지를 더 소모하므로 오히려 오염이 크다”고 주장

2차 10회 반복 테스트

총 530회 호출 결과, 일관성 있는 정답률은 더 낮아짐
10/10 정답 모델(5개): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
8/10 정답 모델(2개): GLM-5, Grok-4-1 Reasoning
GPT-5는 7/10 정답, 나머지 3회는 연비·환경 논리로 오답
33개 모델은 10회 모두 오답, GPT-4.1, GPT-5.1, Llama, Mistral 등 포함
일부 모델은 첫 시도에서 정답이었으나 반복 시 결과가 불안정
- Sonar: 1회 정답 → 10회 전부 오답
- Kimi K2.5: 5회 정답, 5회 오답
- GLM-4.7: 1회 오답 → 10회 중 6회 정답으로 개선

인간 비교 실험

Rapidata 플랫폼을 통해 10,000명 대상 동일 질문 실시
- 71.5%가 ‘운전’을 선택, 인간 평균 정답률로 설정
GPT-5의 70% 정답률은 인간 평균과 유사
53개 모델 중 7개 모델만 인간 평균을 초과, 나머지 46개 모델은 인간보다 낮은 성능

주요 추론 사례

GLM-4.7 Flash: “걷는다면 차를 밀거나 들어야 하므로 불가능하다”는 명확한 논리 제시
Claude Sonnet 4.5: “자동 세차라면 운전이 필요하다”고 인식했으나 최종 답은 ‘걷기’ 선택
Gemini 2.5 Pro: 정답 시 “차를 세차하려면 세차장에 있어야 한다”고 정확히 서술, 오답 시 “50m는 짧은 거리” 논리 사용

AI 신뢰성 문제

단일 논리 단계를 요구하는 간단한 문제임에도 53개 중 5개만 완전 정답
실패 유형은 세 가지로 구분
- 항상 오답(33개): 거리 중심 휴리스틱에 고착
- 가끔 정답(15개): 추론 능력은 있으나 일관성 부족
- 항상 정답(5개): 문맥적 추론이 휴리스틱을 안정적으로 극복
단순 문제에서도 90% 모델이 실패함은 실제 비즈니스 로직이나 다단계 추론에서의 위험성을 시사

컨텍스트 엔지니어링의 역할

본 테스트는 ‘제로 컨텍스트’ 환경에서 수행되어, 모델의 순수 추론 능력을 평가
다수 모델의 실패 원인은 휴리스틱이 문맥적 추론을 압도하기 때문
컨텍스트 엔지니어링은 예시, 도메인 패턴, 관련 정보를 제공해 이러한 오류를 완화
- Opper의 별도 실험에서, 작은 오픈 모델에 컨텍스트를 추가하자 98.6% 비용 절감으로 대형 모델 수준 품질 달성
세차장 문제는 단순하지만, 실제 업무는 모호성과 도메인 지식이 요구되므로 컨텍스트 설계가 필수

실험 방법론

모든 모델은 Opper LLM Gateway를 통해 동일 프롬프트로 테스트
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- 시스템 프롬프트 없음, ‘drive’ 또는 ‘walk’ 강제 선택
- 단일 실행(1회)과 10회 반복(총 530회) 수행, 모든 호출 로그 기록 및 추론 텍스트 저장
인간 비교군은 Rapidata를 통해 동일 형식으로 10,000명 대상 조사
전체 데이터는 JSON 형식으로 공개됨
- 단일 실행 결과, 10회 반복 결과, 인간 결과 각각 다운로드 가능

▲

armila 2달전 [-]

제미니 프로는,
네가 차를 들고 갈 수 있다면 걸어가도 된다고 대답해서 엄청 웃겼는데 말이죠.

답변달기

▲

grenade 2달전 [-]

재치있는 답변이네요 ㅋㅋ

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

인간의 답변 결과가 ChatGPT와 정확히 일치한다는 게 흥미로움
현실적으로는 “인간 답변 서비스”가 사실상 죽었다는 의미로 보임. 결국 사람들은 품질과 상관없이 AI에 일을 떠넘길 방법을 찾아낼 것임
- 우연처럼 보이지만, 실제로는 인간 답변이 그렇게 수집된 게 아님
  Rapidata는 Duolingo나 게임 앱 같은 곳에 마이크로 설문을 통합해 광고 대신 참여하도록 함. 사용자는 검증된 인원이며, 정답을 맞혀야 할 인센티브는 없음
- ChatGPT의 기본 모델은 GPT‑5.2 Instant임. 인간 결과와 일치한 건 GPT‑5 모델임
  위 댓글처럼 근거 없는 확신으로 결론을 내리는 건 흥미로운 현상임
- 이런 일은 예전부터 3rd-party 인간 작업 서비스에서 자주 있었음
나는 ‘misguided attention’ 유형의 질문으로 구성된 개인 평가 세트를 유지하고 있음
이런 문제의 핵심은 논리 실패가 아니라 모호성과 맥락 부족임. 인간은 암묵적 전제를 채워 넣지만 모델은 그렇지 못함
“AI가 단순한 질문도 틀린다”는 사례 대부분은 통계적 편향을 유도하도록 설계된 문장임. 문맥을 조금만 바꿔도 결과가 뒤집힘
즉, 모델의 실패는 프레이밍 민감도 때문이지, 추론 능력 부재 때문은 아님
- 그 말은 결국 AI가 엉망이라는 뜻임. 특정 질문에 맞춰 훈련하면 다른 부분이 망가짐. 이런 식으로 계속 반복될 것임
- 어떤 사람은 “프레이밍과 분포적 편향에 민감하다”는 표현이 결국 추론 능력 부재를 돌려 말한 것이라 주장함
- 흥미로운 세트 같음. 가능하다면 질문들을 공유해줄 수 있는지 궁금함
- 그 평가 세트를 공개하면 좋겠음, 특히 가장 흥미로운 질문이 무엇인지 궁금함
인간 기준 71.5%라는 수치는 문제의 모호성을 보여줌
“세차장까지 걸을까 운전할까”라는 질문은 “이 짧은 거리를 굳이 운전해야 하나?”로 해석될 수 있음. 즉, 단순한 논리 문제가 아니라 화용론적 해석 문제임
- 질문이 애초에 모호한 게 아니라, 대화 상황 자체가 정보로 작용함
  사람은 질문이 실제 상황에서 나온 것이라 가정하고, 협력적 대화 원칙(Grice의 협동 원리)에 따라 해석함.
  그래서 “이건 함정 질문이구나”라고 깨닫기 전까지는 “걸을 이유가 있겠지”라고 생각함
- 이런 70:30 비율은 다른 사회 통계에서도 자주 보이는 현상임. 단순히 30%는 추론 능력이 부족한 사람일 수도 있음
- 하지만 질문에는 “내 차를 세차하고 싶다. 세차장은 50m 떨어져 있다.”가 포함되어 있음. 즉, 정보가 충분히 명시됨
- Rapidata 같은 서비스가 Mechanical Turk류라면, 응답자가 질문을 제대로 읽지 않았을 가능성도 있음
- “내 차를 세차하고 싶다”라는 전반부 문장을 빼먹은 게 문제였음
Sonnet 4.6 모델에 “지능 테스트 중이다”라고 먼저 알려주면 100% 정답을 냄
모델이 인간의 질문을 실제 상황으로 가정하는 경향이 있어서, 테스트임을 명시하면 오류가 줄어듦
코딩 에이전트에서도 비슷한 현상이 있음. 질문이 처음엔 말이 안 돼도 코드 파일을 불러오면 이해됨
- 이 문제의 본질은 추론/계획 실패임. 결과를 검토하지 않고 답을 내는 경향 때문임
  실제 문제 해결(예: 소프트웨어 설계)에서도 이런 현상이 반복됨.
  LLM은 여전히 패턴 매칭에 의존하고, 결과의 의미를 분석하지 않음
- 흥미로운 실험을 해봤는데, 힌트를 앞에 넣으면 3/3 정답, 뒤에 넣으면 1.5/3, 힌트 없으면 0/3이었음
- 이건 관련성 문제임. “테스트 중”이라는 문구가 “문맥을 믿지 말라”는 신호로 작용함
  모델은 보통 질문이 실제 상황이라 가정하므로, 이런 암묵적 신호를 학습시키면 정확도는 오르지만 친화도는 떨어질 수 있음
- “Exam Question: {prompt}”만 붙여도 ChatGPT는 정답을 냄. 하지만 Llama3.3이나 gpt‑oss‑120b는 여전히 실패함
“가정들을 점검하라”라는 문구를 질문 끝에 추가하면 대부분의 모델이 정답을 냄
단순한 문구 하나로 오류가 사라진다면, AI 제공자들이 이를 시스템 프롬프트에 넣지 않는 이유는 비용 최적화 때문일 것이라 추측함
관련 논의는 이전 댓글에 정리했음
- 나도 Claude나 Codex에게 작업 후 “우리가 놓친 게 뭐지?”라고 물으면 추가 개선이 나오는 경우가 많았음
Google 검색에서 본 “Car Wash Test” 대화가 꽤 웃겼음
대부분의 AI가 “50m면 걸어가라”고 답하지만, 정답은 “차를 세차장으로 가져가야 하므로 운전해야 함”임
이 테스트는 패턴 매칭과 실제 추론의 차이를 보여주는 사례임
- LLM은 마치 단어 수 채우는 고등학생 에세이처럼 불필요하게 장황함
- Google 검색 LLM이 똑똑해진 건지, 단지 최신 트렌드에 더 민감해진 건지 궁금함
- Gemini의 답변도 웃겼음. “효율 vs 논리의 딜레마”라며, “걸어가면 결국 다시 차를 가지러 와야 하니 운전이 맞다”고 설명함
- 예전엔 LLM이 날짜를 물으면 학습 시점의 날짜를 말했는데, 이제는 실제 날짜를 알려줌. 즉, 웹 검색을 활용하고 있음
Rapidata를 통해 얻은 인간 기준은 71.5%가 ‘운전’ 선택이었음
올바른 답은 “차가 어디 있느냐”를 묻는 명확화 질문임.
하지만 ChatGPT에 “내 차가 세차장에서 50m 떨어져 있다”고 말해도 여전히 틀림
- “차가 어디 있느냐”는 명확화 질문이 아니라, 이미 가능한 선택지에 포함된 전제임
- Rapidata 응답자 중 30%는 봇일 수도 있음
- Rapidata는 3천 개 이상의 앱에 통합되어 있고, 1천만 명 이상의 사용자가 참여함. 전 세계 160개국에서 실시간 응답을 받음
- “움직이지 말고 세차장을 부르라”는 창의적 대안도 있음. 적어도 차를 두고 걸어가는 것보다는 합리적임
- Claude는 “스파크 플러그를 교체하러 200m 떨어진 정비소에 갈까?” 질문에도 “걸어가라”고 답함. 즉, 문맥 붕괴 문제임
이 질문은 단순하지 않음. 지능적인 사람이라면 왜 이런 질문을 하는지, 맥락이 빠진 건 아닌지 고민함
그래서 정답은 “운전”이나 “도보”가 아니라 “질문을 명확히 해달라”일 수도 있음
- 약간의 맥락 추가만으로도 모델 성능이 크게 향상됨. 예를 들어 “세차장은 차가 통과해야 하는 건물이다”처럼 구체화하면 됨
  관련 예시 Rain‑x 세차액 이미지
- 이런 질문은 너무 명백해서 인간은 함정일 거라 의심함
- LLM은 바로 답하려 하지만, 인간은 먼저 명확화 질문을 던짐
- 사실 이건 영어 표현 관습에 관한 문제 같음. “어디로 가려는지 말해줘야 도와줄 수 있다”는 식의 반응이 자연스러움
- 대부분 사람은 “운전?”이라며 농담이겠지 하고 넘길 것임
Sonnet 4.6 모델이 상식 점수는 높지만 Opus보다 작음
Opus 4.6 Extended Reasoning 모드에서는 “걸어가라”고 답했는데, 작성자는 10/10 정답을 받았다고 함.
아마 앱의 메모리 기능이 프롬프트에 자동 삽입되어 추론을 방해한 듯함. 메모리와 바이오 정보를 끄면 “운전하라”로 바뀜
즉, 숨겨진 프리프롬프트가 모델의 추론을 왜곡할 수 있음
- 나도 Opus 4.6 출시 당일 테스트했는데 여전히 실패함. 유료 구독자라도 모델 품질 차이는 존재함
- Opus 4.6의 모델 카드에 따르면, 추론 노력이 과도해져 오답을 합리화하는 현상이 있음. RL 훈련 중 과열된 듯함
- Sonnet 4.6을 포함해 9개 Claude 모델을 테스트했으며, 결과는 링크 갤러리에서 확인 가능함

답변달기

AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”

세차장 테스트 개요

1차 단일 실행 결과

2차 10회 반복 테스트

인간 비교 실험

주요 추론 사례

AI 신뢰성 문제

컨텍스트 엔지니어링의 역할

실험 방법론

함께 보면 좋은 글 β

Hacker News 의견들