# AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”

> Clean Markdown view of GeekNews topic #26975. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26975](https://news.hada.io/topic?id=26975)
- GeekNews Markdown: [https://news.hada.io/topic/26975.md](https://news.hada.io/topic/26975.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-25T05:37:51+09:00
- Updated: 2026-02-25T05:37:51+09:00
- Original source: [opper.ai](https://opper.ai/blog/car-wash-test)
- Points: 10
- Comments: 3

## Summary

지난주에 인기였던 ‘세차장 테스트’를 53종의 **AI 모델**을 대상으로 확장하여 테스트했습니다. 정답은 ‘운전’이지만 42개 모델이 ‘걷기’를 택했으며, 10회 반복에서도 **Claude Opus 4.6**과 **Gemini 3 시리즈** 등 5개만이 일관된 정답을 냈습니다.   
  
사실 이 글이 놀라운 건 사람 1만명에게 테스트했는데도 **71.5%만 운전을 선택**했다는 겁니다.

## Topic Body

- 53개의 주요 **AI 모델**을 대상으로 테스트한 결과, 대부분이 **기초적 추론에 실패**함  
- 정답은 **‘운전’** 이지만 53개 중 42개 모델이 **‘걷기’** 를 선택  
- **Claude Opus 4.6, Gemini 3 시리즈, Grok-4** 등 5개 모델만이 10회 반복 테스트에서도 **100% 일관된 정답**을 냄  
- **GPT-5**는 10회 중 7회만 정답을 맞혀, 평균 **인간 정답률(71.5%)** 과 유사한 수준으로 평가됨  
- 실험은 **AI의 일관된 추론 능력 부족**과 **문맥 기반 판단의 한계**를 드러내며, 이를 보완하기 위한 **‘컨텍스트 엔지니어링’의 중요성**을 강조  
  
---  
  
### 세차장 테스트 개요  
- 테스트는 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”라는 질문으로 구성  
  - 정답은 ‘운전’이며, 이유는 **세차를 하려면 차가 세차장에 있어야 하기 때문**  
- Opper의 **LLM Gateway**를 통해 53개 모델을 동일 조건으로 평가  
  - 시스템 프롬프트 없이, ‘walk’ 또는 ‘drive’ 중 하나를 강제 선택하도록 설정  
  - 각 모델당 1회 테스트 후, 10회 반복 테스트로 **일관성 검증** 수행  
  
### 1차 단일 실행 결과  
- 53개 중 **11개 모델만 정답(운전)**, **42개 모델은 오답(걷기)**  
- 정답을 맞힌 모델: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5  
- **Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral 등 주요 패밀리별 성능 차이** 확인  
  - Anthropic: 1/9 (Opus 4.6만 정답)  
  - OpenAI: 1/12 (GPT-5만 정답)  
  - Meta(Llama), Mistral, DeepSeek 등은 전부 실패  
- 대부분의 오답은 “50m는 짧은 거리이므로 걷는 것이 효율적”이라는 **거리 중심의 휴리스틱 오류** 때문  
- 일부 모델은 정답을 맞혔지만 **비논리적 근거**를 제시  
  - 예: Perplexity Sonar는 “걷기가 음식 생산 에너지를 더 소모하므로 오히려 오염이 크다”고 주장  
  
### 2차 10회 반복 테스트  
- 총 530회 호출 결과, **일관성 있는 정답률은 더 낮아짐**  
- **10/10 정답 모델(5개)**: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4  
- **8/10 정답 모델(2개)**: GLM-5, Grok-4-1 Reasoning  
- **GPT-5는 7/10 정답**, 나머지 3회는 연비·환경 논리로 오답  
- **33개 모델은 10회 모두 오답**, GPT-4.1, GPT-5.1, Llama, Mistral 등 포함  
- 일부 모델은 첫 시도에서 정답이었으나 반복 시 **결과가 불안정**  
  - Sonar: 1회 정답 → 10회 전부 오답  
  - Kimi K2.5: 5회 정답, 5회 오답  
  - GLM-4.7: 1회 오답 → 10회 중 6회 정답으로 개선  
  
### 인간 비교 실험  
- Rapidata 플랫폼을 통해 **10,000명 대상 동일 질문** 실시  
  - **71.5%가 ‘운전’을 선택**, 인간 평균 정답률로 설정  
- GPT-5의 70% 정답률은 인간 평균과 유사  
- 53개 모델 중 **7개 모델만 인간 평균을 초과**, 나머지 46개 모델은 인간보다 낮은 성능  
  
### 주요 추론 사례  
- **GLM-4.7 Flash**: “걷는다면 차를 밀거나 들어야 하므로 불가능하다”는 명확한 논리 제시  
- **Claude Sonnet 4.5**: “자동 세차라면 운전이 필요하다”고 인식했으나 최종 답은 ‘걷기’ 선택  
- **Gemini 2.5 Pro**: 정답 시 “차를 세차하려면 세차장에 있어야 한다”고 정확히 서술, 오답 시 “50m는 짧은 거리” 논리 사용  
  
### AI 신뢰성 문제  
- 단일 논리 단계를 요구하는 간단한 문제임에도 **53개 중 5개만 완전 정답**  
- 실패 유형은 세 가지로 구분  
  - **항상 오답(33개)**: 거리 중심 휴리스틱에 고착  
  - **가끔 정답(15개)**: 추론 능력은 있으나 일관성 부족  
  - **항상 정답(5개)**: 문맥적 추론이 휴리스틱을 안정적으로 극복  
- 단순 문제에서도 90% 모델이 실패함은 **실제 비즈니스 로직이나 다단계 추론에서의 위험성**을 시사  
  
### 컨텍스트 엔지니어링의 역할  
- 본 테스트는 **‘제로 컨텍스트’ 환경**에서 수행되어, 모델의 순수 추론 능력을 평가  
- 다수 모델의 실패 원인은 **휴리스틱이 문맥적 추론을 압도**하기 때문  
- **컨텍스트 엔지니어링**은 예시, 도메인 패턴, 관련 정보를 제공해 이러한 오류를 완화  
  - Opper의 별도 실험에서, 작은 오픈 모델에 컨텍스트를 추가하자 **98.6% 비용 절감으로 대형 모델 수준 품질 달성**  
- 세차장 문제는 단순하지만, 실제 업무는 **모호성과 도메인 지식**이 요구되므로 컨텍스트 설계가 필수  
  
### 실험 방법론  
- 모든 모델은 **Opper LLM Gateway**를 통해 동일 프롬프트로 테스트  
  - “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”  
  - 시스템 프롬프트 없음, ‘drive’ 또는 ‘walk’ 강제 선택  
  - 단일 실행(1회)과 10회 반복(총 530회) 수행, **모든 호출 로그 기록 및 추론 텍스트 저장**  
- 인간 비교군은 Rapidata를 통해 동일 형식으로 10,000명 대상 조사  
- 전체 데이터는 JSON 형식으로 공개됨  
  - 단일 실행 결과, 10회 반복 결과, 인간 결과 각각 다운로드 가능

## Comments


### Comment 51951

- Author: armila
- Created: 2026-02-26T16:44:16+09:00
- Points: 1

제미니 프로는,  
네가 차를 들고 갈 수 있다면 걸어가도 된다고 대답해서 엄청 웃겼는데 말이죠.

### Comment 51975

- Author: grenade
- Created: 2026-02-27T02:05:56+09:00
- Points: 1
- Parent comment: 51951
- Depth: 1

재치있는 답변이네요 ㅋㅋ

### Comment 51822

- Author: neo
- Created: 2026-02-25T05:37:51+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47128138) 
- 인간의 답변 결과가 ChatGPT와 **정확히 일치**한다는 게 흥미로움  
  현실적으로는 “인간 답변 서비스”가 사실상 죽었다는 의미로 보임. 결국 사람들은 품질과 상관없이 **AI에 일을 떠넘길 방법**을 찾아낼 것임
  - 우연처럼 보이지만, 실제로는 인간 답변이 그렇게 수집된 게 아님  
    Rapidata는 Duolingo나 게임 앱 같은 곳에 **마이크로 설문**을 통합해 광고 대신 참여하도록 함. 사용자는 검증된 인원이며, 정답을 맞혀야 할 인센티브는 없음
  - ChatGPT의 기본 모델은 GPT‑5.2 Instant임. 인간 결과와 일치한 건 GPT‑5 모델임  
    위 댓글처럼 **근거 없는 확신**으로 결론을 내리는 건 흥미로운 현상임
  - 이런 일은 예전부터 **3rd-party 인간 작업 서비스**에서 자주 있었음

- 나는 ‘**misguided attention**’ 유형의 질문으로 구성된 개인 평가 세트를 유지하고 있음  
  이런 문제의 핵심은 논리 실패가 아니라 **모호성**과 **맥락 부족**임. 인간은 암묵적 전제를 채워 넣지만 모델은 그렇지 못함  
  “AI가 단순한 질문도 틀린다”는 사례 대부분은 통계적 편향을 유도하도록 설계된 문장임. 문맥을 조금만 바꿔도 결과가 뒤집힘  
  즉, 모델의 실패는 **프레이밍 민감도** 때문이지, 추론 능력 부재 때문은 아님
  - 그 말은 결국 AI가 **엉망**이라는 뜻임. 특정 질문에 맞춰 훈련하면 다른 부분이 망가짐. 이런 식으로 계속 반복될 것임
  - 어떤 사람은 “프레이밍과 분포적 편향에 민감하다”는 표현이 결국 **추론 능력 부재**를 돌려 말한 것이라 주장함
  - 흥미로운 세트 같음. 가능하다면 질문들을 **공유해줄 수 있는지** 궁금함
  - 그 평가 세트를 **공개하면 좋겠음**, 특히 가장 흥미로운 질문이 무엇인지 궁금함

- 인간 기준 71.5%라는 수치는 문제의 **모호성**을 보여줌  
  “세차장까지 걸을까 운전할까”라는 질문은 “이 짧은 거리를 굳이 운전해야 하나?”로 해석될 수 있음. 즉, 단순한 논리 문제가 아니라 **화용론적 해석 문제**임
  - 질문이 애초에 모호한 게 아니라, **대화 상황 자체가 정보**로 작용함  
    사람은 질문이 실제 상황에서 나온 것이라 가정하고, 협력적 대화 원칙(Grice의 [협동 원리](https://en.wikipedia.org/wiki/Cooperative_principle#Grice's_maxims))에 따라 해석함.  
    그래서 “이건 함정 질문이구나”라고 깨닫기 전까지는 “걸을 이유가 있겠지”라고 생각함
  - 이런 70:30 비율은 다른 사회 통계에서도 자주 보이는 현상임. 단순히 **30%는 추론 능력이 부족**한 사람일 수도 있음
  - 하지만 질문에는 “내 차를 세차하고 싶다. 세차장은 50m 떨어져 있다.”가 포함되어 있음. 즉, **정보가 충분히 명시됨**
  - Rapidata 같은 서비스가 **Mechanical Turk**류라면, 응답자가 질문을 제대로 읽지 않았을 가능성도 있음
  - “내 차를 세차하고 싶다”라는 **전반부 문장**을 빼먹은 게 문제였음

- Sonnet 4.6 모델에 “**지능 테스트 중이다**”라고 먼저 알려주면 100% 정답을 냄  
  모델이 인간의 질문을 실제 상황으로 가정하는 경향이 있어서, **테스트임을 명시하면 오류가 줄어듦**  
  코딩 에이전트에서도 비슷한 현상이 있음. 질문이 처음엔 말이 안 돼도 코드 파일을 불러오면 이해됨
  - 이 문제의 본질은 **추론/계획 실패**임. 결과를 검토하지 않고 답을 내는 경향 때문임  
    실제 문제 해결(예: 소프트웨어 설계)에서도 이런 현상이 반복됨.  
    LLM은 여전히 **패턴 매칭**에 의존하고, 결과의 의미를 분석하지 않음
  - 흥미로운 실험을 해봤는데, 힌트를 **앞에 넣으면 3/3 정답**, 뒤에 넣으면 1.5/3, 힌트 없으면 0/3이었음
  - 이건 **관련성 문제**임. “테스트 중”이라는 문구가 “문맥을 믿지 말라”는 신호로 작용함  
    모델은 보통 질문이 실제 상황이라 가정하므로, 이런 **암묵적 신호**를 학습시키면 정확도는 오르지만 친화도는 떨어질 수 있음
  - “Exam Question: {prompt}”만 붙여도 ChatGPT는 정답을 냄. 하지만 **Llama3.3**이나 **gpt‑oss‑120b**는 여전히 실패함

- “**가정들을 점검하라**”라는 문구를 질문 끝에 추가하면 대부분의 모델이 정답을 냄  
  단순한 문구 하나로 오류가 사라진다면, AI 제공자들이 이를 시스템 프롬프트에 넣지 않는 이유는 **비용 최적화** 때문일 것이라 추측함  
  관련 논의는 [이전 댓글](https://news.ycombinator.com/item?id=47040530)에 정리했음
  - 나도 **Claude나 Codex**에게 작업 후 “우리가 놓친 게 뭐지?”라고 물으면 추가 개선이 나오는 경우가 많았음

- Google 검색에서 본 “**Car Wash Test**” 대화가 꽤 웃겼음  
  대부분의 AI가 “50m면 걸어가라”고 답하지만, 정답은 “차를 세차장으로 가져가야 하므로 운전해야 함”임  
  이 테스트는 **패턴 매칭과 실제 추론의 차이**를 보여주는 사례임
  - LLM은 마치 **단어 수 채우는 고등학생 에세이**처럼 불필요하게 장황함
  - Google 검색 LLM이 똑똑해진 건지, 단지 **최신 트렌드에 더 민감해진 건지** 궁금함
  - Gemini의 답변도 웃겼음. “효율 vs 논리의 딜레마”라며, “걸어가면 결국 다시 차를 가지러 와야 하니 운전이 맞다”고 설명함
  - 예전엔 LLM이 날짜를 물으면 학습 시점의 날짜를 말했는데, 이제는 **실제 날짜**를 알려줌. 즉, 웹 검색을 활용하고 있음

- Rapidata를 통해 얻은 인간 기준은 **71.5%가 ‘운전’ 선택**이었음  
  올바른 답은 “**차가 어디 있느냐**”를 묻는 **명확화 질문**임.  
  하지만 ChatGPT에 “내 차가 세차장에서 50m 떨어져 있다”고 말해도 여전히 틀림
  - “차가 어디 있느냐”는 명확화 질문이 아니라, 이미 **가능한 선택지**에 포함된 전제임
  - Rapidata 응답자 중 **30%는 봇**일 수도 있음
  - Rapidata는 3천 개 이상의 앱에 통합되어 있고, **1천만 명 이상**의 사용자가 참여함. 전 세계 160개국에서 실시간 응답을 받음
  - “움직이지 말고 세차장을 부르라”는 **창의적 대안**도 있음. 적어도 차를 두고 걸어가는 것보다는 합리적임
  - Claude는 “스파크 플러그를 교체하러 200m 떨어진 정비소에 갈까?” 질문에도 “걸어가라”고 답함. 즉, **문맥 붕괴** 문제임

- 이 질문은 단순하지 않음. **지능적인 사람**이라면 왜 이런 질문을 하는지, 맥락이 빠진 건 아닌지 고민함  
  그래서 정답은 “운전”이나 “도보”가 아니라 “**질문을 명확히 해달라**”일 수도 있음
  - 약간의 **맥락 추가**만으로도 모델 성능이 크게 향상됨. 예를 들어 “세차장은 차가 통과해야 하는 건물이다”처럼 구체화하면 됨  
    관련 예시 [Rain‑x 세차액 이미지](https://i5.walmartimages.com/seo/Rain-x-Foaming-Car-Wash-Concentrate-100oz-62091_a2ee8b0c-392f-4242-8dcd-ad9f5a11298c.7bb678ec6be6c313addf3e8964940eba.jpeg)
  - 이런 질문은 **너무 명백해서 인간은 함정일 거라 의심**함
  - LLM은 바로 답하려 하지만, 인간은 먼저 **명확화 질문**을 던짐
  - 사실 이건 **영어 표현 관습**에 관한 문제 같음. “어디로 가려는지 말해줘야 도와줄 수 있다”는 식의 반응이 자연스러움
  - 대부분 사람은 “운전?”이라며 **농담이겠지** 하고 넘길 것임

- Sonnet 4.6 모델이 **상식 점수는 높지만** Opus보다 작음  
  Opus 4.6 Extended Reasoning 모드에서는 “걸어가라”고 답했는데, 작성자는 10/10 정답을 받았다고 함.  
  아마 앱의 **메모리 기능이 프롬프트에 자동 삽입**되어 추론을 방해한 듯함. 메모리와 바이오 정보를 끄면 “운전하라”로 바뀜  
  즉, **숨겨진 프리프롬프트**가 모델의 추론을 왜곡할 수 있음
  - 나도 Opus 4.6 출시 당일 테스트했는데 여전히 실패함. **유료 구독자**라도 모델 품질 차이는 존재함
  - Opus 4.6의 [모델 카드](https://www.anthropic.com/claude-opus-4-6-system-card)에 따르면, **추론 노력이 과도해져 오답을 합리화**하는 현상이 있음. RL 훈련 중 과열된 듯함
  - Sonnet 4.6을 포함해 **9개 Claude 모델**을 테스트했으며, 결과는 링크 갤러리에서 확인 가능함