24P by xguru 1달전 | favorite | 댓글 5개
  • Apple의 AI 연구팀이 기계의 깊이 인식 방식을 크게 발전시킬 수 있는 새로운 모델 Depth Pro를 개발
  • 증강현실부터 자율주행차까지 다양한 산업에서 혁신을 가져올 수 있음

Depth Pro의 주요 특징

  • 기존에 필요했던 카메라 데이터에 의존하지 않고 초고속으로 단일 2D 이미지에서 상세한 3D 심도 맵을 생성
  • 모노큘러 깊이 추정(monocular depth estimation) 분야에서 큰 도약을 이룸
  • 실시간 공간 인식이 중요한 분야에서 광범위하게 적용될 수 있음

메타 데이터 없이도 빠르고 정확한 깊이 추정

  • 모노큘러 깊이 추정은 전통적으로 다중 이미지나 초점거리 등의 메타데이터가 필요해 어려운 과제였음
  • 그러나 Depth Pro는 이러한 요구사항을 우회하여 표준 GPU에서 0.3초 만에 고해상도 깊이 맵을 생성함
  • 2.25메가픽셀 맵을 예외적인 선명도로 생성하며, 다른 방법으로는 간과되기 쉬운 머리카락이나 식물 같은 미세한 디테일까지 포착함
  • 연구진은 "이러한 특성은 밀집 예측을 위한 효율적인 다중 스케일 비전 트랜스포머를 포함한 여러 기술적 기여에 의해 가능해졌다"고 설명
  • 이 아키텍처는 이미지의 전체적인 맥락과 미세한 디테일을 동시에 처리할 수 있어, 이전의 느리고 부정확한 모델에 비해 엄청난 도약을 이룸

Metric depth와 zero-shot learning의 차별점

  • Depth Pro가 진정 차별화되는 점은 상대적 깊이와 절대적 깊이를 모두 추정할 수 있는 "metric depth" 기능임
  • 이는 모델이 실제 측정값을 제공할 수 있음을 의미하며, 가상 객체를 물리적 공간 내 정확한 위치에 배치해야 하는 증강현실(AR) 등의 애플리케이션에 필수적임
  • Depth Pro는 정확한 예측을 위해 도메인 특화 데이터셋에 대한 광범위한 학습을 필요로 하지 않는데, 이를 "zero-shot learning"이라고 함
  • 이로 인해 모델의 범용성이 매우 높아져 깊이 추정 모델에서 일반적으로 필요한 카메라별 데이터 없이도 다양한 이미지에 적용될 수 있음
  • 저자들은 "Depth Pro는 카메라 내재 파라미터 등의 메타데이터 없이 '야생'의 임의 이미지에 대해 절대 스케일의 metric depth 맵을 생성한다"고 설명함
  • 이러한 유연성은 AR 경험 향상부터 자율주행차의 장애물 감지 및 회피 능력 개선에 이르기까지 다양한 가능성을 열어줌

실제 적용 사례

  • 전자상거래에서 소비자가 스마트폰 카메라로 방을 비추면 가구가 어떻게 어울리는지 보여줄 수 있음
  • 자율주행차의 단일 카메라에서 실시간 고해상도 깊이 맵 생성으로 주행 환경 인식 및 안전성 개선에 기여 가능
  • 연구진은 "이상적으로는 이 zero-shot 체제에서 물체의 모양, 장면 배치, 절대 스케일을 정확하게 재현하는 metric depth 맵을 생성해야 한다"고 강조하며, 전통적인 AI 모델 학습에 드는 시간과 비용을 절감할 수 있는 잠재력을 강조함

깊이 추정의 난제 해결

  • 깊이 추정에서 가장 어려운 과제 중 하나는 "flying pixels"로 알려진 현상을 다루는 것임
    • "Flying pixels"는 깊이 매핑 오류로 인해 공중에 떠 있는 것처럼 보이는 픽셀을 의미함
  • Depth Pro는 이 문제를 정면으로 다루어 정확성이 가장 중요한 3D 재구성이나 가상 환경 등의 애플리케이션에 특히 효과적임
  • 또한 Depth Pro는 경계 추적에서 탁월한 성능을 발휘하며, 객체와 그 가장자리를 선명하게 묘사하는 능력이 이전 모델을 능가함
  • 연구진은 Depth Pro가 "경계 정확도에서 다른 시스템을 곱셈 인자만큼 능가한다"고 주장하는데, 이는 이미지 매팅이나 의료 영상 등 정밀한 객체 분할이 필요한 애플리케이션에 핵심적임

오픈소스 공개와 확장성

  • Apple은 Depth Pro를 오픈소스로 공개해 기술 도입을 가속화
  • 코드와 사전 학습된 모델 가중치를 GitHub에서 제공해 개발자와 연구자들이 쉽게 실험하고 개선할 수 있음
  • 로보틱스, 제조업, 헬스케어 등 다양한 분야에서의 잠재력 탐구를 장려하고 있음

AI 깊이 인식의 미래

  • Depth Pro는 모노큘러 깊이 추정 분야에서 속도와 정확성의 새로운 기준을 세움
  • 단일 이미지에서 고품질 실시간 깊이 맵을 생성하는 능력은 공간 인식에 의존하는 산업 전반에 큰 영향을 미칠 것임
  • 오픈소스로 공개된 Depth Pro는 자율주행부터 증강현실까지 다양한 산업에서 핵심 기술로 자리잡을 것

먼가.. 애플대신 메타가 적혀있어야 될거 같은 너낌이네요..

테슬라 AI에서는 multi-view와 NeRF를 활용해 occupancy network 모델을 구현하여 이러한 depth perception 문제를 해결하고 있는 것으로 알고 있습니다. 이러한 상용 회사에서 해당 모델을 어떻게 활용하고 더 개선해 나갈지 궁금해지네요.

LLM이 매우 핫 할 때 조용해서 대체 뭐하나 싶었는데, 여기를 파고 있었나 보군요.