메타, Segment Anything Model 2 도입

(ai.meta.com)

Meta Segment Anything Model 2 (SAM 2) 소개

모든 비디오 및 이미지에서 객체 분할
- SAM 2는 이미지와 비디오에서 객체를 분할하는 최초의 통합 모델임
- 클릭, 박스, 마스크를 입력으로 사용하여 이미지나 비디오 프레임에서 객체를 선택할 수 있음
비디오 프레임 간 객체 선택 및 조정
- SAM 2를 사용하여 비디오 프레임에서 하나 또는 여러 객체를 선택할 수 있음
- 추가 프롬프트를 사용하여 모델 예측을 세밀하게 조정할 수 있음
낯선 비디오에서도 강력한 분할 성능
- SAM 2는 모델 학습 중에 보지 못한 객체, 이미지, 비디오에서도 강력한 제로샷 성능을 발휘함
- 다양한 실제 응용 프로그램에서 사용 가능함
실시간 상호작용 및 결과
- SAM 2는 스트리밍 추론을 통해 실시간 상호작용 애플리케이션을 가능하게 함
최첨단 객체 분할 성능
- SAM 2는 비디오 및 이미지에서 객체 분할에 있어 최고의 모델보다 뛰어난 성능을 발휘함

Meta Segment Anything Model 2 설계
- SAM 2 모델은 세션별 메모리 모듈을 추가하여 비디오 도메인으로 확장됨
- 이 모듈은 비디오의 대상 객체에 대한 정보를 캡처하여 객체가 일시적으로 보이지 않더라도 모든 비디오 프레임에서 객체를 추적할 수 있게 함
- 추가 프롬프트를 기반으로 마스크 예측을 수정할 수 있는 기능도 지원함
- SAM 2의 스트리밍 아키텍처는 비디오 프레임을 하나씩 처리하여 비디오 도메인으로 자연스럽게 일반화됨

대규모 및 다양한 비디오 분할 데이터셋
- SAM 2는 대규모 및 다양한 비디오와 마스크렛(시간 경과에 따른 객체 마스크) 세트에서 학습됨
- 학습 데이터에는 공개 소스인 SA-V 데이터셋이 포함됨
하이라이트
- 약 51,000개의 비디오에서 약 600,000개 이상의 마스크렛 수집
- 47개국에 걸친 지리적으로 다양한 실제 시나리오
- 전체 객체, 부분, 도전적인 가림 현상을 포함한 주석

오픈 이노베이션
- 연구 커뮤니티가 이 작업을 기반으로 구축할 수 있도록 사전 학습된 Segment Anything 2 모델, SA-V 데이터셋, 데모 및 코드를 공개함
하이라이트
- SAM 2 학습 데이터의 투명성 제공
- 실제 세계를 대표하기 위해 SA-V 데이터셋의 지리적 다양성 우선
- SAM 2의 공정성 평가 수행

확장 가능한 출력
- SAM 2의 비디오 객체 분할 출력은 현대 비디오 생성 모델과 같은 다른 AI 시스템의 입력으로 사용될 수 있음
확장 가능한 입력
- SAM 2는 실시간 또는 라이브 비디오에서 객체와 상호작용하는 창의적인 방법을 가능하게 하는 다른 유형의 입력 프롬프트를 수용할 수 있음