# o3의 사진 위치 ​​추측은 초현실적이고 디스토피아적이며 재미남

> Clean Markdown view of GeekNews topic #20549. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20549](https://news.hada.io/topic?id=20549)
- GeekNews Markdown: [https://news.hada.io/topic/20549.md](https://news.hada.io/topic/20549.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-27T09:46:18+09:00
- Updated: 2025-04-27T09:46:18+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2025/Apr/26/o3-photo-locations/)
- Points: 6
- Comments: 2

## Summary

**OpenAI의 새로운 모델**은 사진을 보고 촬영 장소를 놀라울 정도로 정확히 추측하는 능력을 가지고 있습니다. 이 모델은 **시각적 단서**를 분석하고, **도구 연동형 사고 체계**를 활용하여 사진을 분석하는 혁신적인 패턴을 보여줍니다. 기술의 양면성에 대한 경각심을 강조하며, **프라이버시와 안전 문제**에 대한 인식이 필요함을 지적합니다. **EXIF 메타데이터** 없이도 위치를 유추할 수 있는 이 모델의 능력은 매우 인상적입니다.

## Topic Body

- **OpenAI의 새로운 모델 o3**는 사진만 보고 촬영 장소를 놀라울 정도로 정확히 추측하는 능력을 가짐  
- **사진의 시각적 단서**를 분석하고, 확대/크롭 작업을 통해 더 많은 디테일을 끌어내는 과정을 보여줌  
- **Cambria, California**를 첫 번째로 추측했지만, 두 번째 추측인 **El Granada**가 정확히 맞음  
- **도구 연동형 사고 체계**를 활용해 사진을 분석하는 과정이 매우 혁신적인 패턴을 보여줌  
- **기술의 양면성**에 대한 경각심을 강조하며, 사진 공유의 위험성도 지적  
  
---  
  
### o3 모델의 놀라운 사진 위치 추측 능력  
  
- OpenAI의 **o3 모델**은 사진을 보고 어디서 찍힌 것인지 놀라운 정확도로 추측하는 능력을 가짐  
- 사용자는 명확한 랜드마크 없이 일반적인 거리 풍경을 찍은 사진을 제공하고, "이 사진이 어디서 찍힌 것 같아?"라고 요청함  
- 모델은 초기에 이미지를 못 본다고 오해했지만 곧 시각적 분석을 시작함  
- 주택, 화단, 언덕, 표지판 등 다양한 시각적 단서를 분석하여 촬영 위치를 좁혀나감  
  
### o3의 사진 분석 과정  
  
- 모델은 자동차 번호판을 확인하기 위해 **사진을 크롭하고 확대**하는 방법을 사용함  
- Python 코드를 이용하여 이미지의 특정 부분을 잘라내고, 그 결과를 분석함  
- 번호판의 디자인을 통해 **캘리포니아**임을 추론하고 주변 환경과 건축 양식 등도 분석함  
- 이를 통해 최종적으로 **Cambria, California**를 추측하고, 두 번째 대안으로 **Half Moon Bay–El Granada**를 제시함  
  
### 분석 정확도와 추가 실험  
  
- 실제 촬영 장소는 El Granada로, 모델의 두 번째 추측이 정확했음  
- EXIF 메타데이터를 사용하지 않고도 위치를 유추하는 것을 확인함  
- 사용자가 EXIF 정보를 제거한 스크린샷으로 실험한 결과, 여전히 정확한 추론이 가능했음  
- 다른 모델인 **Claude 3.5/3.7 Sonnet** 역시 좋은 성능을 보였으나, o3처럼 확대 기능은 지원하지 않음  
- **Gemini 모델**은 위치 정보를 부정확하게 사용하거나 잘못 추측하는 경우가 있었음  
  
### 도구 연동 사고 체계와 그 의미  
  
- o3는 "사고하는 중"에 필요한 도구를 직접 사용하는 새로운 **Tool-augmented Chain-of-Thought** 방식을 채택함  
- 사진 분석뿐 아니라 검색 등 다양한 작업에서도 이 패턴이 강력한 성능을 발휘함  
- 앞으로 다른 AI 모델에서도 비슷한 방식이 확산될 것으로 예상됨  
  
### 기술의 재미와 위험성  
  
- 모델의 추론 과정을 지켜보는 것은 **매우 재미있고 몰입감 있는 경험**을 제공함  
- 동시에, **사진을 통한 위치 추적 가능성**이 일반화되었음을 알리는 경각심도 중요함  
- 누구든지 일상 사진만으로 개인 위치를 추적할 수 있어, **프라이버시와 안전 문제**에 대한 인식이 필요함  
  
### o3 모델의 위치 접근성에 대한 추가 정보  
  
- o3는 사용자 대략적인 위치 정보를 참조할 수 있지만, 이는 정확한 위치 추론의 주요 요소는 아님  
- EXIF 메타데이터가 없는 상태에서도 수천 마일 떨어진 지역의 사진을 꽤 정확히 분석했음  
- 다른 사용자들도 다양한 장소에서 실험한 결과, o3의 분석 능력을 재확인함

## Comments



### Comment 37882

- Author: unsure4000
- Created: 2025-04-27T11:36:05+09:00
- Points: 1

EXIF에 역정보를 넣어보면 어떨까요?

### Comment 37871

- Author: neo
- Created: 2025-04-27T09:46:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43803243) 
* 나는 경쟁적인 Geoguessr를 높은 수준에서 플레이하며, 이 모델을 테스트해보고 싶었음
  - 놀랍도록 뛰어남
  - 내가 사는 지역의 사진을 정확히 맞추었고, 내가 그 근처에 산다는 정보를 사용했음을 언급했음
  - 오래된 휴가 사진도 프로 인간 플레이어보다 잘 맞추었음
  - 유럽, 중미, 미국의 다양한 장소를 포함함
  - 결론에 도달하는 과정이 인간과 유사함
  - 식물, 지형, 건축물, 도로 인프라, 표지판 등을 분석함
  - 인간도 가능하지만 수천 번의 게임이나 심도 있는 학습이 필요함
  - 나는 도로선, 전신주, 건축물 등을 기억하기 위해 수백 개의 플래시카드를 사용함
  - 이 모델들은 개인이 기억할 수 있는 것보다 더 많은 정보를 가지고 있음

* EXIF 데이터를 보지 않았다고 확신함
  - 만약 봤다면 처음에 Cambria를 추측하지 않았을 것임
  - 한 번은 이미지 데이터를 전혀 볼 수 없다고 말했음
  - 그 말은 절대 믿을 수 없음
  - EXIF 데이터를 제거하고 다시 실행해야 함

* 내가 시도한 모든 이미지에서 기본 모델은 사진의 위치를 약 95% 정확도로 파악함
  - OP의 초기 이미지에서 4o는 Carmel-by-the-Sea를 더 정확히 추측함
  - CoT에서 첫 번째 추론 단계로 거의 정확한 위치를 볼 수 있음
  - 모델은 이를 무시하고 다른 위치를 시도함
  - 기본 모델이 단서를 모를 때 o3는 똑똑한 행동을 하지 않음
  - 모델이 RL-ed 되어 도구 사용 수에 상관없이 정답을 유도함

* 같은 것을 시도했는데 결과가 웃겼음
  - 완전히 단서를 모름
  - 내가 있는 도시가 아니라는 프롬프트를 여러 번 보았음
  - 흐릿한 아스팔트를 분석하기 시작했을 때가 가장 웃겼음
  - 6분 후 o3는 확신에 차서 틀렸음

* o3는 사용자의 위치를 대략적으로 모델링함
  - 새로운 검색 기능을 지원하기 위한 것이라고 믿음
  - 두 개의 추가 예제 쿼리를 실행했는데, 둘 다 설득력 있는 결과를 보였음

* 사람들이 YouTubeTV를 볼 때 자신이 이야기하던 것에 대한 광고를 보고 놀라는 것을 떠올리게 함
  - 실제로는 현대 ML이 위치, 데이터 파트너, 최근 검색을 사용해 광고 관련성을 잘 추측할 수 있음
  - 이를 설명해도 여전히 컴퓨터가 듣고 있다고 믿는 사람들이 있음

* 위치 추측이 무섭게 정확할 수 있는 영역이 있을 것임
  - 그러나 추론 과정을 보면 덜 정확한 영역도 많을 것임
  - 캔자스의 트레일러 파크 사진을 보여주면 모델이 주만 맞출 것임
  - 로봇 아포칼립스가 발생하면 캘리포니아가 가장 먼저 위험할 것임

* EXIF 데이터를 보지 않았다고 확신함
  - 비슷한 작업에서 속임수를 쓴다면 약간 틀린 위치를 제안할 것임
  - EXIF 데이터를 제거한 동일한 이미지에서 어떻게 수행하는지 보는 것이 흥미로울 것임

* 다른 날에는 그다지 인상적이지 않았음
  - 제공한 이미지를 찾지 못했음
  - 이미지 크롭과 유사한 검색을 반복함
  - 이미지 생성 기능을 사용하면 큰 이미지 데이터베이스를 참조 자료로 사용함을 알 수 있음

* o4-mini가 이 작업을 실패하는 것인지 확신할 수 없음
  - 제공한 사진에서 잘 수행하지 못했음
  - Basel Main Train Station의 'Sprüngli'라는 텍스트를 포함한 사진을 주었는데, 모델은 Zurich를 제안했음
  - 두 번째 사진은 더 어려웠음
  - Metz의 박물관 내부 사진이었고, 모델은 처음부터 놓쳤음
  - 전체적으로 이미지를 이해하고 추론하는 것은 여전히 멋지지만 덜 노출된 장소에서는 잘 수행하지 못함
