5P by GN⁺ 2일전 | ★ favorite | 댓글 2개
  • OpenAI의 새로운 모델 o3는 사진만 보고 촬영 장소를 놀라울 정도로 정확히 추측하는 능력을 가짐
  • 사진의 시각적 단서를 분석하고, 확대/크롭 작업을 통해 더 많은 디테일을 끌어내는 과정을 보여줌
  • Cambria, California를 첫 번째로 추측했지만, 두 번째 추측인 El Granada가 정확히 맞음
  • 도구 연동형 사고 체계를 활용해 사진을 분석하는 과정이 매우 혁신적인 패턴을 보여줌
  • 기술의 양면성에 대한 경각심을 강조하며, 사진 공유의 위험성도 지적

o3 모델의 놀라운 사진 위치 추측 능력

  • OpenAI의 o3 모델은 사진을 보고 어디서 찍힌 것인지 놀라운 정확도로 추측하는 능력을 가짐
  • 사용자는 명확한 랜드마크 없이 일반적인 거리 풍경을 찍은 사진을 제공하고, "이 사진이 어디서 찍힌 것 같아?"라고 요청함
  • 모델은 초기에 이미지를 못 본다고 오해했지만 곧 시각적 분석을 시작함
  • 주택, 화단, 언덕, 표지판 등 다양한 시각적 단서를 분석하여 촬영 위치를 좁혀나감

o3의 사진 분석 과정

  • 모델은 자동차 번호판을 확인하기 위해 사진을 크롭하고 확대하는 방법을 사용함
  • Python 코드를 이용하여 이미지의 특정 부분을 잘라내고, 그 결과를 분석함
  • 번호판의 디자인을 통해 캘리포니아임을 추론하고 주변 환경과 건축 양식 등도 분석함
  • 이를 통해 최종적으로 Cambria, California를 추측하고, 두 번째 대안으로 Half Moon Bay–El Granada를 제시함

분석 정확도와 추가 실험

  • 실제 촬영 장소는 El Granada로, 모델의 두 번째 추측이 정확했음
  • EXIF 메타데이터를 사용하지 않고도 위치를 유추하는 것을 확인함
  • 사용자가 EXIF 정보를 제거한 스크린샷으로 실험한 결과, 여전히 정확한 추론이 가능했음
  • 다른 모델인 Claude 3.5/3.7 Sonnet 역시 좋은 성능을 보였으나, o3처럼 확대 기능은 지원하지 않음
  • Gemini 모델은 위치 정보를 부정확하게 사용하거나 잘못 추측하는 경우가 있었음

도구 연동 사고 체계와 그 의미

  • o3는 "사고하는 중"에 필요한 도구를 직접 사용하는 새로운 Tool-augmented Chain-of-Thought 방식을 채택함
  • 사진 분석뿐 아니라 검색 등 다양한 작업에서도 이 패턴이 강력한 성능을 발휘함
  • 앞으로 다른 AI 모델에서도 비슷한 방식이 확산될 것으로 예상됨

기술의 재미와 위험성

  • 모델의 추론 과정을 지켜보는 것은 매우 재미있고 몰입감 있는 경험을 제공함
  • 동시에, 사진을 통한 위치 추적 가능성이 일반화되었음을 알리는 경각심도 중요함
  • 누구든지 일상 사진만으로 개인 위치를 추적할 수 있어, 프라이버시와 안전 문제에 대한 인식이 필요함

o3 모델의 위치 접근성에 대한 추가 정보

  • o3는 사용자 대략적인 위치 정보를 참조할 수 있지만, 이는 정확한 위치 추론의 주요 요소는 아님
  • EXIF 메타데이터가 없는 상태에서도 수천 마일 떨어진 지역의 사진을 꽤 정확히 분석했음
  • 다른 사용자들도 다양한 장소에서 실험한 결과, o3의 분석 능력을 재확인함

EXIF에 역정보를 넣어보면 어떨까요?

Hacker News 의견
  • 나는 경쟁적인 Geoguessr를 높은 수준에서 플레이하며, 이 모델을 테스트해보고 싶었음

    • 놀랍도록 뛰어남
    • 내가 사는 지역의 사진을 정확히 맞추었고, 내가 그 근처에 산다는 정보를 사용했음을 언급했음
    • 오래된 휴가 사진도 프로 인간 플레이어보다 잘 맞추었음
    • 유럽, 중미, 미국의 다양한 장소를 포함함
    • 결론에 도달하는 과정이 인간과 유사함
    • 식물, 지형, 건축물, 도로 인프라, 표지판 등을 분석함
    • 인간도 가능하지만 수천 번의 게임이나 심도 있는 학습이 필요함
    • 나는 도로선, 전신주, 건축물 등을 기억하기 위해 수백 개의 플래시카드를 사용함
    • 이 모델들은 개인이 기억할 수 있는 것보다 더 많은 정보를 가지고 있음
  • EXIF 데이터를 보지 않았다고 확신함

    • 만약 봤다면 처음에 Cambria를 추측하지 않았을 것임
    • 한 번은 이미지 데이터를 전혀 볼 수 없다고 말했음
    • 그 말은 절대 믿을 수 없음
    • EXIF 데이터를 제거하고 다시 실행해야 함
  • 내가 시도한 모든 이미지에서 기본 모델은 사진의 위치를 약 95% 정확도로 파악함

    • OP의 초기 이미지에서 4o는 Carmel-by-the-Sea를 더 정확히 추측함
    • CoT에서 첫 번째 추론 단계로 거의 정확한 위치를 볼 수 있음
    • 모델은 이를 무시하고 다른 위치를 시도함
    • 기본 모델이 단서를 모를 때 o3는 똑똑한 행동을 하지 않음
    • 모델이 RL-ed 되어 도구 사용 수에 상관없이 정답을 유도함
  • 같은 것을 시도했는데 결과가 웃겼음

    • 완전히 단서를 모름
    • 내가 있는 도시가 아니라는 프롬프트를 여러 번 보았음
    • 흐릿한 아스팔트를 분석하기 시작했을 때가 가장 웃겼음
    • 6분 후 o3는 확신에 차서 틀렸음
  • o3는 사용자의 위치를 대략적으로 모델링함

    • 새로운 검색 기능을 지원하기 위한 것이라고 믿음
    • 두 개의 추가 예제 쿼리를 실행했는데, 둘 다 설득력 있는 결과를 보였음
  • 사람들이 YouTubeTV를 볼 때 자신이 이야기하던 것에 대한 광고를 보고 놀라는 것을 떠올리게 함

    • 실제로는 현대 ML이 위치, 데이터 파트너, 최근 검색을 사용해 광고 관련성을 잘 추측할 수 있음
    • 이를 설명해도 여전히 컴퓨터가 듣고 있다고 믿는 사람들이 있음
  • 위치 추측이 무섭게 정확할 수 있는 영역이 있을 것임

    • 그러나 추론 과정을 보면 덜 정확한 영역도 많을 것임
    • 캔자스의 트레일러 파크 사진을 보여주면 모델이 주만 맞출 것임
    • 로봇 아포칼립스가 발생하면 캘리포니아가 가장 먼저 위험할 것임
  • EXIF 데이터를 보지 않았다고 확신함

    • 비슷한 작업에서 속임수를 쓴다면 약간 틀린 위치를 제안할 것임
    • EXIF 데이터를 제거한 동일한 이미지에서 어떻게 수행하는지 보는 것이 흥미로울 것임
  • 다른 날에는 그다지 인상적이지 않았음

    • 제공한 이미지를 찾지 못했음
    • 이미지 크롭과 유사한 검색을 반복함
    • 이미지 생성 기능을 사용하면 큰 이미지 데이터베이스를 참조 자료로 사용함을 알 수 있음
  • o4-mini가 이 작업을 실패하는 것인지 확신할 수 없음

    • 제공한 사진에서 잘 수행하지 못했음
    • Basel Main Train Station의 'Sprüngli'라는 텍스트를 포함한 사진을 주었는데, 모델은 Zurich를 제안했음
    • 두 번째 사진은 더 어려웠음
    • Metz의 박물관 내부 사진이었고, 모델은 처음부터 놓쳤음
    • 전체적으로 이미지를 이해하고 추론하는 것은 여전히 멋지지만 덜 노출된 장소에서는 잘 수행하지 못함