- 비디오 학습 및 멀티모달 인식 연구를 지원하기 위한 기초 데이터세트 및 벤치마크
- 참가자의 웨어러블 카메라를 통해서 1인칭 "Egocentric(자기 중심적)" 시점과 참가자를 둘러싼 카메라의 다중 "Exocentric(외심적)" 시점을 동시에 캡처
- 두 시점은 상호보완적으로, Ego는 참가자가 보고 듣는 것 과 Exo는 주변 장면과 맥락을 드러냄
- 이 두 가지 관점을 함께 사용하면 AI 모델에 복잡한 인간 기술에 대한 새로운 시각을 제공할 수 있음
- Meta의 FAIR (Fundamental Artificial Intelligence Research)와 Project Aria, 그리고 15개 대학 파트너들이 2년간의 노력
- 미국, 일본, 콜롬비아, 싱가포르, 인도, 캐나다에 있는 800명 이상의 숙련된 참가자들의 도움을 받아서 캡처
- 1,400시간 이상의 동영상을 포함한 데이터와 새로운 벤치마크 작업에 대한 주석을 오픈소스로 공개
- Ego-Exo4D는 스포츠, 음악, 요리, 춤, 자전거 수리 등 숙련된 인간 활동에 초점을 맞춤
- AI가 비디오에서 인간의 숙련도를 이해하는 능력의 발전은 많은 응용 프로그램을 가능하게 할 수 있음
- 예를 들어, AR 시스템에서 스마트 안경을 착용한 사람이 가상 AI 코치의 안내로 새로운 기술을 빠르게 습득할 수 있음
- Ego-Exo4D는 시간 동기화된 1인칭과 3인칭 비디오의 가장 큰 공개 데이터셋
- 이 데이터셋을 구축하기 위해 다양한 분야의 전문가들을 모집하고, 실제 세계의 전문가들이 참여함
- Ego-Exo4D는 다중 시점뿐만 아니라 다중 모드 데이터셋이며, Meta의 Aria 안경으로 캡처된 모든 ego 비디오는 시간 정렬된 7채널 오디오, 관성 측정 장치(IMU), 두 개의 광각 흑백 카메라 등을 포함