Apple Depth Pro 공개 : 3D 비전의 규칙을 재정의 하는 AI 모델
(venturebeat.com)- Apple의 AI 연구팀이 기계의 깊이 인식 방식을 크게 발전시킬 수 있는 새로운 모델 Depth Pro를 개발
- 증강현실부터 자율주행차까지 다양한 산업에서 혁신을 가져올 수 있음
Depth Pro의 주요 특징
- 기존에 필요했던 카메라 데이터에 의존하지 않고 초고속으로 단일 2D 이미지에서 상세한 3D 심도 맵을 생성
- 모노큘러 깊이 추정(monocular depth estimation) 분야에서 큰 도약을 이룸
- 실시간 공간 인식이 중요한 분야에서 광범위하게 적용될 수 있음
메타 데이터 없이도 빠르고 정확한 깊이 추정
- 모노큘러 깊이 추정은 전통적으로 다중 이미지나 초점거리 등의 메타데이터가 필요해 어려운 과제였음
- 그러나 Depth Pro는 이러한 요구사항을 우회하여 표준 GPU에서 0.3초 만에 고해상도 깊이 맵을 생성함
- 2.25메가픽셀 맵을 예외적인 선명도로 생성하며, 다른 방법으로는 간과되기 쉬운 머리카락이나 식물 같은 미세한 디테일까지 포착함
- 연구진은 "이러한 특성은 밀집 예측을 위한 효율적인 다중 스케일 비전 트랜스포머를 포함한 여러 기술적 기여에 의해 가능해졌다"고 설명
- 이 아키텍처는 이미지의 전체적인 맥락과 미세한 디테일을 동시에 처리할 수 있어, 이전의 느리고 부정확한 모델에 비해 엄청난 도약을 이룸
Metric depth와 zero-shot learning의 차별점
- Depth Pro가 진정 차별화되는 점은 상대적 깊이와 절대적 깊이를 모두 추정할 수 있는 "metric depth" 기능임
- 이는 모델이 실제 측정값을 제공할 수 있음을 의미하며, 가상 객체를 물리적 공간 내 정확한 위치에 배치해야 하는 증강현실(AR) 등의 애플리케이션에 필수적임
- Depth Pro는 정확한 예측을 위해 도메인 특화 데이터셋에 대한 광범위한 학습을 필요로 하지 않는데, 이를 "zero-shot learning"이라고 함
- 이로 인해 모델의 범용성이 매우 높아져 깊이 추정 모델에서 일반적으로 필요한 카메라별 데이터 없이도 다양한 이미지에 적용될 수 있음
- 저자들은 "Depth Pro는 카메라 내재 파라미터 등의 메타데이터 없이 '야생'의 임의 이미지에 대해 절대 스케일의 metric depth 맵을 생성한다"고 설명함
- 이러한 유연성은 AR 경험 향상부터 자율주행차의 장애물 감지 및 회피 능력 개선에 이르기까지 다양한 가능성을 열어줌
실제 적용 사례
- 전자상거래에서 소비자가 스마트폰 카메라로 방을 비추면 가구가 어떻게 어울리는지 보여줄 수 있음
- 자율주행차의 단일 카메라에서 실시간 고해상도 깊이 맵 생성으로 주행 환경 인식 및 안전성 개선에 기여 가능
- 연구진은 "이상적으로는 이 zero-shot 체제에서 물체의 모양, 장면 배치, 절대 스케일을 정확하게 재현하는 metric depth 맵을 생성해야 한다"고 강조하며, 전통적인 AI 모델 학습에 드는 시간과 비용을 절감할 수 있는 잠재력을 강조함
깊이 추정의 난제 해결
- 깊이 추정에서 가장 어려운 과제 중 하나는 "flying pixels"로 알려진 현상을 다루는 것임
- "Flying pixels"는 깊이 매핑 오류로 인해 공중에 떠 있는 것처럼 보이는 픽셀을 의미함
- Depth Pro는 이 문제를 정면으로 다루어 정확성이 가장 중요한 3D 재구성이나 가상 환경 등의 애플리케이션에 특히 효과적임
- 또한 Depth Pro는 경계 추적에서 탁월한 성능을 발휘하며, 객체와 그 가장자리를 선명하게 묘사하는 능력이 이전 모델을 능가함
- 연구진은 Depth Pro가 "경계 정확도에서 다른 시스템을 곱셈 인자만큼 능가한다"고 주장하는데, 이는 이미지 매팅이나 의료 영상 등 정밀한 객체 분할이 필요한 애플리케이션에 핵심적임
오픈소스 공개와 확장성
- Apple은 Depth Pro를 오픈소스로 공개해 기술 도입을 가속화
- 코드와 사전 학습된 모델 가중치를 GitHub에서 제공해 개발자와 연구자들이 쉽게 실험하고 개선할 수 있음
- 로보틱스, 제조업, 헬스케어 등 다양한 분야에서의 잠재력 탐구를 장려하고 있음
AI 깊이 인식의 미래
- Depth Pro는 모노큘러 깊이 추정 분야에서 속도와 정확성의 새로운 기준을 세움
- 단일 이미지에서 고품질 실시간 깊이 맵을 생성하는 능력은 공간 인식에 의존하는 산업 전반에 큰 영향을 미칠 것임
- 오픈소스로 공개된 Depth Pro는 자율주행부터 증강현실까지 다양한 산업에서 핵심 기술로 자리잡을 것
테슬라 AI에서는 multi-view와 NeRF를 활용해 occupancy network 모델을 구현하여 이러한 depth perception 문제를 해결하고 있는 것으로 알고 있습니다. 이러한 상용 회사에서 해당 모델을 어떻게 활용하고 더 개선해 나갈지 궁금해지네요.