# OpenAI o3, 위조된 EXIF 데이터도 무시하고 Geoguessr 마스터를 이기다

> Clean Markdown view of GeekNews topic #20606. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20606](https://news.hada.io/topic?id=20606)
- GeekNews Markdown: [https://news.hada.io/topic/20606.md](https://news.hada.io/topic/20606.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-30T09:53:51+09:00
- Updated: 2025-04-30T09:53:51+09:00
- Original source: [sampatt.com](https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master)
- Points: 6
- Comments: 1

## Summary

최신 **o3 모델**은 Geoguessr에서 상위 **1~2% 수준**의 플레이어를 상대로 승리하였습니다. 이 모델은 **위조된 EXIF GPS 데이터**를 무시하고 **시각적 단서**만으로 **정확한 위치를 유추**할 수 있습니다. **건물, 지형, 도로선, 언어, 표지판 등**을 분석하는 **Chain of Thought(COT)** 방식을 사용하여 높은 정밀도를 보였습니다. **EXIF 데이터에 의존하지 않고 이미지 내용을 심층적으로 분석**하여, **인간보다 뛰어난 정확도**를 보여주었습니다.

## Topic Body

- 최신 **o3 모델이 Geoguessr Master I 등급 플레이어를 상대로 승리**함  
  - Master I 등급은 상위 약 **1~2% 수준**에 해당하는 실력. 최상위는 Champion으로 0.1~0.5%  
- **이미지에 위조된 EXIF GPS 데이터**를 넣어도, 모델은 시각적 단서만으로 **실제 위치를 정확히 유추**함  
- **건물, 지형, 도로선, 언어, 표지판 등 세부 특징을 종합적으로 분석하는 Chain of Thought(COT)** 방식으로 추론 수행  
- 일부 라운드에서 **웹 검색을 활용**했지만, 재시험 결과 **검색 없이도 동일한 정답 도출 가능**함  
- 평균 추론 시간은 **o3가 인간보다 더 오래 걸리지만, 정밀도는 오히려 뛰어난 수준**임  
  
---  
  
### AI vs 인간: Geoguessr 대결의 시작  
  
- 작성자는 **Geoguessr Master I 등급 플레이어**로, 실제 게임 방식과 유사하게 **5개의 라운드를 AI와 대결**  
- 각 라운드는 **Street View 이미지 2장만 제공**되었으며, 메타데이터 없이 위치를 유추  
- 채점은 일반 Geoguessr 방식과 동일하게 라운드당 최대 5,000점, 총 25,000점 만점 기준  
  
### 라운드별 결과 요약  
  
- **1라운드(불가리아)** : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 점수 차는 약 100점 정도에 불과했음  
- **2라운드(오스트리아)** : o3가 택시의 도메인 주소를 검색해 실제 도시 이름을 파악, 거의 완벽하게 정답 위치를 맞추며 5,000점에 가까운 점수를 획득함  
- **3라운드(아일랜드)** : 둘 다 뛰어난 분석을 보여주었고 o3가 도로선과 석회암 지형 등을 근거로 Burren 지역을 정확히 유추, 근소하게 승리함  
- **4라운드(콜롬비아)** : o3가 도로표식, 번호판, 상점 간판, 지형 등을 바탕으로 인간보다 정확하게 유추했으며 웹 검색 없이도 뛰어난 성과를 보임  
- **5라운드(슬로바키아)** : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 전체 점수 차이는 극복되지 않음  
  
이처럼 o3는 **총 5개 국가를 모두 정확히 식별**하고, 두 라운드에서는 인간보다 수백 킬로미터 더 정확히 맞추는 등 높은 정밀도를 보였음.  
  
### EXIF 조작 실험: AI는 속지 않았다  
  
- 테스트를 위해 실제 위치와 무관한 GPS 좌표를 포함한 EXIF 데이터를 삽입한 이미지를 사용했으나, **o3는 해당 정보가 실제 이미지 내용과 불일치함을 인지하고 무시**  
- EXIF 정보를 텍스트로 제공해도, **사진 속 환경을 근거로 전혀 다른 위치를 정확히 유추**  
- **AI가 단순히 메타데이터에 의존하는 것이 아니라, 이미지 내용을 심층적으로 분석**하고 있다는 점을 입증  
  
### 인간과 AI의 차이  
  
- o3는 **매 라운드 평균 2~6분의 추론 시간**을 소요, 반면 인간 플레이어는 **1~2분 이내에 대부분 추측을 완료**  
- AI는 때때로 광고판 등 덜 중요한 요소에 시간을 쓰는 반면, **인간은 중요 단서를 빠르게 인식하고 우선순위를 정함**  
- 그러나 o3는 도로 표지, 번호판, 건축 양식, 지형, 식생 등 **다양한 시각 정보를 정교하게 결합해 높은 정확도**를 보임  
  
### 결론  
  
- o3는 단순히 EXIF나 검색만 사용하는 **속임수가 아닌 진짜 시각적 분석 역량을 기반으로 정답을 도출**  
- **Geoguessr Master I 등급 이상의 수준에 근접한 플레이**를 보여줌  
- 인간은 여전히 **속도와 직관에서 우위**를 점하지만, **정확도 면에서는 이미 AI가 위협적인 수준**  
- 이는 단순한 기술 시연을 넘어, **실제적 활용이 가능한 고성능 시각 AI의 현주소를 보여주는 사례**임

## Comments


### Comment 37989

- Author: neo
- Created: 2025-04-30T09:53:51+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43835044) 
- "www.taxilinder.at"라는 스티커가 차량에 붙어 있음. 웹 검색을 통해 Taxi Linder GmbH가 오스트리아의 도른비른에 위치한 것을 알 수 있음
  - 웹 검색을 사용하면 공정하지 않음. 도시 내의 GeoGuessr 라운드에서 몇몇 비즈니스를 검색하여 완벽한 점수를 얻을 수 있지만, 그것이 게임의 목적은 아님

- 작성자는 사람들이 이 주제를 흥미롭게 여기는 것을 기쁘게 생각함
  - 모든 사람에게 GeoGuessr를 시도해보기를 권장함. 작성자는 이 게임을 사랑함
  - o3 모델이 5라운드 중 2라운드에서 웹 검색을 사용한 것이 불공정하고 결과가 유효하지 않다는 의견이 많음
  - 이를 확인하기 위해 검색을 사용한 두 라운드를 다시 실행하고 결과를 업데이트함
  - 결론: 결과는 거의 동일했음. GPS 좌표를 게시물에서 확인할 수 있음
  - 오스트리아 라운드에서 배경의 산을 기반으로 도시를 식별하는 모델의 예시를 제공함
  - 이미 많은 정보를 가지고 있어 검색이 필요하지 않았음
  - 검색이 유용할 때가 있을 것임. 그러나 이 경우에는 관련이 없었음

- GeoGuessr에서 마스터 레벨임. 이 레벨은 확실히 무엇을 해야 하는지 알아야 하지만, 제목에서 들리는 것만큼 높지는 않음
  - 마스터는 약 800-1200 ELO이며, 프로는 1900-2000 정도임. 95%의 라운드에서 국가를 바로 알 수 있지만, 러시아나 브라질에서는 정보가 없으면 위치를 알 수 없음. 스크립터는 나를 이길 수 있음

- o3가 이미지 데이터를 포함한 다중 모달 데이터로 훈련되었다고 이해함. 훈련 데이터에 정확한 위치와 특징의 이미지가 포함되어 있다고 가정하는 것이 비합리적이지 않음
  - GeoGuesser는 Google Maps를 사용하며, Google Maps는 대부분의 이미지를 제3자로부터 구매함. 그 제3자가 모든 대형 AI 회사에 판매하지 않는다면 매우 놀라울 것임

- GeoGuessr를 제외하고, 이 기술이 언젠가 아이들을 구하는 데 도움이 되기를 희망함. 예를 들어 FBI의 ECAP에 도움을 줄 수 있음

- 이전 게시물에서의 댓글:
  - 위치 추측이 무섭도록 정확할 수 있는 영역이 있을 것임. 예를 들어, 백업 추측으로 정확한 마을을 맞춘 기사처럼
  - 그러나 생각의 흐름을 보면, 정확도가 떨어질 많은 영역이 있을 것임. 캔자스의 트레일러 파크 사진을 보여주면 모델이 주만 맞출 수 있을 것임
  - 이 게시물은 큰 샘플 크기는 아니지만, 이러한 모델이 어떻게 작동할지 예상한 바를 반영함. 시각적 정보가 많지 않은 사진에서도 국가를 맞추는 데 신뢰할 수 있었음
  - 이전 기사에서는 한 장의 사진만 테스트했으며, 두 번째 추측으로 정확한 마을을 맞추었고 작성자는 이를 "무섭도록 정확하다"고 표현함. 이는 판단의 문제임
  - 웹 검색이 활성화된 o3가 GeoGuessr를 높은 수준으로 플레이할 수 있는 것 같음. 이제 o3 GeoGuessr 봇이 여러 경기를 플레이하고 ELO를 확인하고 싶음

- 이번 주에 o3와 함께 놀아보려고 했고, 흥미롭게도 패턴 매칭을 더 많이 시도함. 예를 들어, 유럽과 미국의 사진을 쉽게 추론할 수 있음
  - 그러나 온라인에 사진이 많지 않은 장소에서는 더 깊이 탐색하지 않고 자신의 데이터베이스/인터넷에서 패턴 매칭을 시도함
  - 예를 들어, 2020년 이후로 자라난 섬의 인기 있는 트레일을 예로 들 수 있음. 처음에는 섬의 바위와 브라질의 식생을 언급했지만, 리우데자네이루의 장소를 찾으려고 함
  - 또 다른 예로는 썰물 때 자연 수영장으로 유명한 해변이 있음. 만조 때 사진을 찍었을 때, 식생과 주를 정확히 잡았지만, 더 인기 있는 장소를 다시 찾으려고 함

- 놀라움. AI에 대해 긍정적이지만, 여기서는 인간이 이길 것이라고 생각했음. "그것은 진정한 추론이 아니다"라는 목표 이동을 기대함

- 개인적으로 덜 인상적인 LLM 응용 프로그램 중 하나라고 생각함. 이미 모든 식물, 도로 표지 등을 알고 있음. 전통적인 신경망도 여기서 잘할 것이라고 상상함

- OSINT(Bellingcat/Trace an object) 스타일 작업에 게임 체인저가 될 것임. 이미 그런 일이 일어났는지 궁금함
  - GeoGuessr 스타일의 대회가 열릴 수 있으며, 이는 적어도 보조 파일럿으로서 대량 식별에 크게 기여할 수 있음