2P by neo 4달전 | favorite | 댓글과 토론

Meta Segment Anything Model 2 (SAM 2) 소개

주요 기능

  • 모든 비디오 및 이미지에서 객체 분할

    • SAM 2는 이미지와 비디오에서 객체를 분할하는 최초의 통합 모델임
    • 클릭, 박스, 마스크를 입력으로 사용하여 이미지나 비디오 프레임에서 객체를 선택할 수 있음
  • 비디오 프레임 간 객체 선택 및 조정

    • SAM 2를 사용하여 비디오 프레임에서 하나 또는 여러 객체를 선택할 수 있음
    • 추가 프롬프트를 사용하여 모델 예측을 세밀하게 조정할 수 있음
  • 낯선 비디오에서도 강력한 분할 성능

    • SAM 2는 모델 학습 중에 보지 못한 객체, 이미지, 비디오에서도 강력한 제로샷 성능을 발휘함
    • 다양한 실제 응용 프로그램에서 사용 가능함
  • 실시간 상호작용 및 결과

    • SAM 2는 스트리밍 추론을 통해 실시간 상호작용 애플리케이션을 가능하게 함
  • 최첨단 객체 분할 성능

    • SAM 2는 비디오 및 이미지에서 객체 분할에 있어 최고의 모델보다 뛰어난 성능을 발휘함

하이라이트

  • 이미지 분할에서 SAM보다 향상된 성능
  • 기존 비디오 객체 분할 모델보다 뛰어난 성능, 특히 부분 추적에서
  • 기존 상호작용 비디오 분할 방법보다 적은 상호작용 시간 필요

직접 사용해보기

  • 비디오의 한 프레임에서 단일 클릭으로 객체를 추적하고 재미있는 효과를 만들어 볼 수 있음
  • 데모 시도하기

모델 아키텍처

  • Meta Segment Anything Model 2 설계
    • SAM 2 모델은 세션별 메모리 모듈을 추가하여 비디오 도메인으로 확장됨
    • 이 모듈은 비디오의 대상 객체에 대한 정보를 캡처하여 객체가 일시적으로 보이지 않더라도 모든 비디오 프레임에서 객체를 추적할 수 있게 함
    • 추가 프롬프트를 기반으로 마스크 예측을 수정할 수 있는 기능도 지원함
    • SAM 2의 스트리밍 아키텍처는 비디오 프레임을 하나씩 처리하여 비디오 도메인으로 자연스럽게 일반화됨

Segment Anything Video Dataset

  • 대규모 및 다양한 비디오 분할 데이터셋

    • SAM 2는 대규모 및 다양한 비디오와 마스크렛(시간 경과에 따른 객체 마스크) 세트에서 학습됨
    • 학습 데이터에는 공개 소스인 SA-V 데이터셋이 포함됨
  • 하이라이트

    • 약 51,000개의 비디오에서 약 600,000개 이상의 마스크렛 수집
    • 47개국에 걸친 지리적으로 다양한 실제 시나리오
    • 전체 객체, 부분, 도전적인 가림 현상을 포함한 주석

연구 공개

  • 오픈 이노베이션

    • 연구 커뮤니티가 이 작업을 기반으로 구축할 수 있도록 사전 학습된 Segment Anything 2 모델, SA-V 데이터셋, 데모 및 코드를 공개함
  • 하이라이트

    • SAM 2 학습 데이터의 투명성 제공
    • 실제 세계를 대표하기 위해 SA-V 데이터셋의 지리적 다양성 우선
    • SAM 2의 공정성 평가 수행

잠재적 모델 응용

  • 확장 가능한 출력

    • SAM 2의 비디오 객체 분할 출력은 현대 비디오 생성 모델과 같은 다른 AI 시스템의 입력으로 사용될 수 있음
  • 확장 가능한 입력

    • SAM 2는 실시간 또는 라이브 비디오에서 객체와 상호작용하는 창의적인 방법을 가능하게 하는 다른 유형의 입력 프롬프트를 수용할 수 있음

추가 리소스 탐색

GN⁺의 정리

  • SAM 2는 이미지와 비디오에서 객체를 분할하는 통합 모델로, 실시간 상호작용 및 강력한 제로샷 성능을 제공함
  • 다양한 실제 시나리오에서 사용할 수 있도록 설계되었으며, 연구 커뮤니티를 위해 공개된 데이터셋과 코드가 포함됨
  • 비디오 객체 추적 및 분할에서 기존 모델보다 뛰어난 성능을 발휘하며, 적은 상호작용 시간으로도 높은 정확도를 제공함
  • SAM 2는 비디오 생성 모델과 같은 다른 AI 시스템과 결합하여 새로운 경험을 가능하게 할 수 있음