GN⁺: Niantic, 포켓몬 고 플레이어 데이터를 기반으로 훈련된 "Large Geospatial Model" 발표
(nianticlabs.com)- Niantic은 대규모 기계 학습을 활용하여 장면을 이해하고 전 세계 수백만 개의 다른 장면과 연결하는 대규모 지리 공간 모델(LGM)을 개발 중
- 인간은 공간 이해력을 통해 구조물을 다양한 각도에서 상상할 수 있지만, 기계에게는 어려운 과제
- Niantic의 Visual Positioning System(VPS)은 50억 개 이상의 뉴럴 네트워크를 훈련하여 100만 개 이상의 위치에서 작동 가능하게 함
-
대규모 지리 공간 모델이란?
- LGM은 컴퓨터가 물리적 세계를 인식하고 이해하며 탐색할 수 있도록 도와줌
- LLM과 유사하게, LGM은 방대한 양의 원시 데이터를 사용하여 구축되며, 이는 공간, 구조 및 물리적 상호작용에 대한 위치 기반 이해를 가능하게 함
- 3D 비전 모델을 넘어서는 지리 공간 모델은 특정 지리적 위치에 뿌리를 두고 있으며, 정밀한 척도 단위로 측정 가능함
-
Niantic의 작업 현황
- 지난 5년간 Niantic은 VPS를 구축하여 사용자가 물리적 환경에 디지털 콘텐츠를 정확하게 배치할 수 있도록 함
- VPS는 사용자 스캔을 통해 구축되며, 이는 보행자 관점에서 수집된 데이터로, 자동차로 접근할 수 없는 장소를 포함함
- 현재 전 세계 1천만 개의 스캔된 위치가 있으며, 매주 100만 개의 새로운 스캔을 수집함
-
지역 시스템에서 공유 이해로
- 현재의 뉴럴 맵은 사용 가능한 지리 공간 모델이지만, LGM은 독립적인 지역 맵을 넘어서는 비전을 가지고 있음
- LGM은 지역 모델 간의 데이터 공유를 가능하게 하며, 특정 위치에서 건물의 뒷모습을 추론할 수 있음
- 이는 지리 공간 및 시각적 데이터를 기반으로 한 중앙 집중식 세계 이해를 구현함
-
인간과 같은 이해
- 인간은 본 것을 다른 각도에서도 인식할 수 있는 능력을 가짐
- 이러한 이해는 대규모 기계 학습을 통해서만 현실적으로 달성 가능하며, Niantic은 이를 목표로 함
-
보완적인 기초 모델로의 발전
- LGM은 단순한 위치 지정 이상의 용도로 사용될 수 있으며, 장면 표현, 조작 및 생성의 새로운 방법을 가능하게 함
- 다양한 유형의 기초 모델이 서로를 보완하며, 이러한 시스템은 물리적 세계를 인식하고 이해하며 작동할 수 있게 함
- Niantic은 대규모 지리 공간 모델 개발을 선도하여 사용자에게 새로운 경험을 제공하는 것을 목표로 함
Hacker News 의견
-
포켓몬 GO 플레이어로서, 게임을 통해 훈련 데이터를 제공하게 되어 그들이 내 노동으로 이익을 얻는 것 같음. 포케스탑을 스캔하는 작업은 보상에 비해 노력이 크기 때문에 중단했음. 만약 그들이 모델과 가중치를 공개한다면, 더 큰 공익에 기여했다고 느낄 것임.
-
포켓몬 GO의 AR 기술이 느려서 잘 사용하지 않았는데, 이제는 LGM 훈련에 사용될 정도로 발전했다는 것이 놀라움. 경제적으로도 플레이어는 무료 게임을 얻고, Niantic은 수익을 얻으며, 새로운 기술이 세상에 제공됨.
-
MyFitnessPal에서는 사용자가 바코드를 스캔할 때 배경 소음을 수집하여 훈련 데이터로 사용함. 이를 통해 평균적인 식료품 저장소, 냉장고, 슈퍼마켓 통로에 대한 정보를 얻을 수 있음.
-
이 블로그 게시물과 HN의 반응이 혼란스러움. 실제로 모델을 훈련한 것이 아니라 계획을 발표한 것임. 5천만 개의 신경망을 훈련했다고 하지만, 이는 기존에 하던 일의 일부일 뿐임. Niantic을 AI 회사로 포지셔닝하려는 비전 문서로 보임.
-
지리 공간 데이터가 공공재로 되어야 한다는 철학적 의견이 있음. 군중 소싱된 데이터는 일반 사람들로부터 온 것이므로, 지식과 사실은 공공의 자산이 되어야 한다고 생각함.
-
3D 장면을 실시간으로 생성하는 것이 미래의 지도라고 생각하지 않음. 건물, 도로, 표지판 등은 매우 정적이며, 대부분의 사용 사례에 큰 변화가 없음. 정확한 모델을 클라우드에서 가져오는 것이 더 유용할 것임.
-
Google/Niantic의 회의에서 군중 소싱을 통해 새로운 세대의 3D 모델을 구축하자는 아이디어가 나왔을 것임. 포켓몬 권리를 구매하여 이를 실현함.
-
Brian Maclendon(Niantic)이 Bellingfest 발표에서 이에 대한 흥미로운 세부 사항을 제시함.
-
LGM이 무엇인지 이해하기 어려움. 지리 공간 데이터가 아닌 건물의 뒷면을 예측하는 비전 모델 개선에 관한 것 같음. 훈련 데이터는 포켓몬을 잡을 때 생성된 이미지에서 온 것임.
-
CIA가 이미 접근할 수 있을 것이라는 의견이 있음. 몇 년 전부터 프라이버시 우려가 제기되었음.