4P by GN⁺ 6시간전 | ★ favorite | 댓글 1개
  • 최신 o3 모델이 Geoguessr Master I 등급 플레이어를 상대로 승리
    • Master I 등급은 상위 약 1~2% 수준에 해당하는 실력. 최상위는 Champion으로 0.1~0.5%
  • 이미지에 위조된 EXIF GPS 데이터를 넣어도, 모델은 시각적 단서만으로 실제 위치를 정확히 유추
  • 건물, 지형, 도로선, 언어, 표지판 등 세부 특징을 종합적으로 분석하는 Chain of Thought(COT) 방식으로 추론 수행
  • 일부 라운드에서 웹 검색을 활용했지만, 재시험 결과 검색 없이도 동일한 정답 도출 가능
  • 평균 추론 시간은 o3가 인간보다 더 오래 걸리지만, 정밀도는 오히려 뛰어난 수준

AI vs 인간: Geoguessr 대결의 시작

  • 작성자는 Geoguessr Master I 등급 플레이어로, 실제 게임 방식과 유사하게 5개의 라운드를 AI와 대결
  • 각 라운드는 Street View 이미지 2장만 제공되었으며, 메타데이터 없이 위치를 유추
  • 채점은 일반 Geoguessr 방식과 동일하게 라운드당 최대 5,000점, 총 25,000점 만점 기준

라운드별 결과 요약

  • 1라운드(불가리아) : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 점수 차는 약 100점 정도에 불과했음
  • 2라운드(오스트리아) : o3가 택시의 도메인 주소를 검색해 실제 도시 이름을 파악, 거의 완벽하게 정답 위치를 맞추며 5,000점에 가까운 점수를 획득함
  • 3라운드(아일랜드) : 둘 다 뛰어난 분석을 보여주었고 o3가 도로선과 석회암 지형 등을 근거로 Burren 지역을 정확히 유추, 근소하게 승리함
  • 4라운드(콜롬비아) : o3가 도로표식, 번호판, 상점 간판, 지형 등을 바탕으로 인간보다 정확하게 유추했으며 웹 검색 없이도 뛰어난 성과를 보임
  • 5라운드(슬로바키아) : 인간이 근소하게 더 가까운 위치를 맞추며 승리했으나 전체 점수 차이는 극복되지 않음

이처럼 o3는 총 5개 국가를 모두 정확히 식별하고, 두 라운드에서는 인간보다 수백 킬로미터 더 정확히 맞추는 등 높은 정밀도를 보였음.

EXIF 조작 실험: AI는 속지 않았다

  • 테스트를 위해 실제 위치와 무관한 GPS 좌표를 포함한 EXIF 데이터를 삽입한 이미지를 사용했으나, o3는 해당 정보가 실제 이미지 내용과 불일치함을 인지하고 무시
  • EXIF 정보를 텍스트로 제공해도, 사진 속 환경을 근거로 전혀 다른 위치를 정확히 유추
  • AI가 단순히 메타데이터에 의존하는 것이 아니라, 이미지 내용을 심층적으로 분석하고 있다는 점을 입증

인간과 AI의 차이

  • o3는 매 라운드 평균 2~6분의 추론 시간을 소요, 반면 인간 플레이어는 1~2분 이내에 대부분 추측을 완료
  • AI는 때때로 광고판 등 덜 중요한 요소에 시간을 쓰는 반면, 인간은 중요 단서를 빠르게 인식하고 우선순위를 정함
  • 그러나 o3는 도로 표지, 번호판, 건축 양식, 지형, 식생 등 다양한 시각 정보를 정교하게 결합해 높은 정확도를 보임

결론

  • o3는 단순히 EXIF나 검색만 사용하는 속임수가 아닌 진짜 시각적 분석 역량을 기반으로 정답을 도출
  • Geoguessr Master I 등급 이상의 수준에 근접한 플레이를 보여줌
  • 인간은 여전히 속도와 직관에서 우위를 점하지만, 정확도 면에서는 이미 AI가 위협적인 수준
  • 이는 단순한 기술 시연을 넘어, 실제적 활용이 가능한 고성능 시각 AI의 현주소를 보여주는 사례
Hacker News 의견
  • "www.taxilinder.at"라는 스티커가 차량에 붙어 있음. 웹 검색을 통해 Taxi Linder GmbH가 오스트리아의 도른비른에 위치한 것을 알 수 있음

    • 웹 검색을 사용하면 공정하지 않음. 도시 내의 GeoGuessr 라운드에서 몇몇 비즈니스를 검색하여 완벽한 점수를 얻을 수 있지만, 그것이 게임의 목적은 아님
  • 작성자는 사람들이 이 주제를 흥미롭게 여기는 것을 기쁘게 생각함

    • 모든 사람에게 GeoGuessr를 시도해보기를 권장함. 작성자는 이 게임을 사랑함
    • o3 모델이 5라운드 중 2라운드에서 웹 검색을 사용한 것이 불공정하고 결과가 유효하지 않다는 의견이 많음
    • 이를 확인하기 위해 검색을 사용한 두 라운드를 다시 실행하고 결과를 업데이트함
    • 결론: 결과는 거의 동일했음. GPS 좌표를 게시물에서 확인할 수 있음
    • 오스트리아 라운드에서 배경의 산을 기반으로 도시를 식별하는 모델의 예시를 제공함
    • 이미 많은 정보를 가지고 있어 검색이 필요하지 않았음
    • 검색이 유용할 때가 있을 것임. 그러나 이 경우에는 관련이 없었음
  • GeoGuessr에서 마스터 레벨임. 이 레벨은 확실히 무엇을 해야 하는지 알아야 하지만, 제목에서 들리는 것만큼 높지는 않음

    • 마스터는 약 800-1200 ELO이며, 프로는 1900-2000 정도임. 95%의 라운드에서 국가를 바로 알 수 있지만, 러시아나 브라질에서는 정보가 없으면 위치를 알 수 없음. 스크립터는 나를 이길 수 있음
  • o3가 이미지 데이터를 포함한 다중 모달 데이터로 훈련되었다고 이해함. 훈련 데이터에 정확한 위치와 특징의 이미지가 포함되어 있다고 가정하는 것이 비합리적이지 않음

    • GeoGuesser는 Google Maps를 사용하며, Google Maps는 대부분의 이미지를 제3자로부터 구매함. 그 제3자가 모든 대형 AI 회사에 판매하지 않는다면 매우 놀라울 것임
  • GeoGuessr를 제외하고, 이 기술이 언젠가 아이들을 구하는 데 도움이 되기를 희망함. 예를 들어 FBI의 ECAP에 도움을 줄 수 있음

  • 이전 게시물에서의 댓글:

    • 위치 추측이 무섭도록 정확할 수 있는 영역이 있을 것임. 예를 들어, 백업 추측으로 정확한 마을을 맞춘 기사처럼
    • 그러나 생각의 흐름을 보면, 정확도가 떨어질 많은 영역이 있을 것임. 캔자스의 트레일러 파크 사진을 보여주면 모델이 주만 맞출 수 있을 것임
    • 이 게시물은 큰 샘플 크기는 아니지만, 이러한 모델이 어떻게 작동할지 예상한 바를 반영함. 시각적 정보가 많지 않은 사진에서도 국가를 맞추는 데 신뢰할 수 있었음
    • 이전 기사에서는 한 장의 사진만 테스트했으며, 두 번째 추측으로 정확한 마을을 맞추었고 작성자는 이를 "무섭도록 정확하다"고 표현함. 이는 판단의 문제임
    • 웹 검색이 활성화된 o3가 GeoGuessr를 높은 수준으로 플레이할 수 있는 것 같음. 이제 o3 GeoGuessr 봇이 여러 경기를 플레이하고 ELO를 확인하고 싶음
  • 이번 주에 o3와 함께 놀아보려고 했고, 흥미롭게도 패턴 매칭을 더 많이 시도함. 예를 들어, 유럽과 미국의 사진을 쉽게 추론할 수 있음

    • 그러나 온라인에 사진이 많지 않은 장소에서는 더 깊이 탐색하지 않고 자신의 데이터베이스/인터넷에서 패턴 매칭을 시도함
    • 예를 들어, 2020년 이후로 자라난 섬의 인기 있는 트레일을 예로 들 수 있음. 처음에는 섬의 바위와 브라질의 식생을 언급했지만, 리우데자네이루의 장소를 찾으려고 함
    • 또 다른 예로는 썰물 때 자연 수영장으로 유명한 해변이 있음. 만조 때 사진을 찍었을 때, 식생과 주를 정확히 잡았지만, 더 인기 있는 장소를 다시 찾으려고 함
  • 놀라움. AI에 대해 긍정적이지만, 여기서는 인간이 이길 것이라고 생각했음. "그것은 진정한 추론이 아니다"라는 목표 이동을 기대함

  • 개인적으로 덜 인상적인 LLM 응용 프로그램 중 하나라고 생각함. 이미 모든 식물, 도로 표지 등을 알고 있음. 전통적인 신경망도 여기서 잘할 것이라고 상상함

  • OSINT(Bellingcat/Trace an object) 스타일 작업에 게임 체인저가 될 것임. 이미 그런 일이 일어났는지 궁금함

    • GeoGuessr 스타일의 대회가 열릴 수 있으며, 이는 적어도 보조 파일럿으로서 대량 식별에 크게 기여할 수 있음