GN⁺: 메타, Segment Anything Model 2 도입
(ai.meta.com)Meta Segment Anything Model 2 (SAM 2) 소개
주요 기능
-
모든 비디오 및 이미지에서 객체 분할
- SAM 2는 이미지와 비디오에서 객체를 분할하는 최초의 통합 모델임
- 클릭, 박스, 마스크를 입력으로 사용하여 이미지나 비디오 프레임에서 객체를 선택할 수 있음
-
비디오 프레임 간 객체 선택 및 조정
- SAM 2를 사용하여 비디오 프레임에서 하나 또는 여러 객체를 선택할 수 있음
- 추가 프롬프트를 사용하여 모델 예측을 세밀하게 조정할 수 있음
-
낯선 비디오에서도 강력한 분할 성능
- SAM 2는 모델 학습 중에 보지 못한 객체, 이미지, 비디오에서도 강력한 제로샷 성능을 발휘함
- 다양한 실제 응용 프로그램에서 사용 가능함
-
실시간 상호작용 및 결과
- SAM 2는 스트리밍 추론을 통해 실시간 상호작용 애플리케이션을 가능하게 함
-
최첨단 객체 분할 성능
- SAM 2는 비디오 및 이미지에서 객체 분할에 있어 최고의 모델보다 뛰어난 성능을 발휘함
하이라이트
- 이미지 분할에서 SAM보다 향상된 성능
- 기존 비디오 객체 분할 모델보다 뛰어난 성능, 특히 부분 추적에서
- 기존 상호작용 비디오 분할 방법보다 적은 상호작용 시간 필요
직접 사용해보기
- 비디오의 한 프레임에서 단일 클릭으로 객체를 추적하고 재미있는 효과를 만들어 볼 수 있음
- 데모 시도하기
모델 아키텍처
-
Meta Segment Anything Model 2 설계
- SAM 2 모델은 세션별 메모리 모듈을 추가하여 비디오 도메인으로 확장됨
- 이 모듈은 비디오의 대상 객체에 대한 정보를 캡처하여 객체가 일시적으로 보이지 않더라도 모든 비디오 프레임에서 객체를 추적할 수 있게 함
- 추가 프롬프트를 기반으로 마스크 예측을 수정할 수 있는 기능도 지원함
- SAM 2의 스트리밍 아키텍처는 비디오 프레임을 하나씩 처리하여 비디오 도메인으로 자연스럽게 일반화됨
Segment Anything Video Dataset
-
대규모 및 다양한 비디오 분할 데이터셋
- SAM 2는 대규모 및 다양한 비디오와 마스크렛(시간 경과에 따른 객체 마스크) 세트에서 학습됨
- 학습 데이터에는 공개 소스인 SA-V 데이터셋이 포함됨
-
하이라이트
- 약 51,000개의 비디오에서 약 600,000개 이상의 마스크렛 수집
- 47개국에 걸친 지리적으로 다양한 실제 시나리오
- 전체 객체, 부분, 도전적인 가림 현상을 포함한 주석
연구 공개
-
오픈 이노베이션
- 연구 커뮤니티가 이 작업을 기반으로 구축할 수 있도록 사전 학습된 Segment Anything 2 모델, SA-V 데이터셋, 데모 및 코드를 공개함
-
하이라이트
- SAM 2 학습 데이터의 투명성 제공
- 실제 세계를 대표하기 위해 SA-V 데이터셋의 지리적 다양성 우선
- SAM 2의 공정성 평가 수행
잠재적 모델 응용
-
확장 가능한 출력
- SAM 2의 비디오 객체 분할 출력은 현대 비디오 생성 모델과 같은 다른 AI 시스템의 입력으로 사용될 수 있음
-
확장 가능한 입력
- SAM 2는 실시간 또는 라이브 비디오에서 객체와 상호작용하는 창의적인 방법을 가능하게 하는 다른 유형의 입력 프롬프트를 수용할 수 있음
추가 리소스 탐색
GN⁺의 정리
- SAM 2는 이미지와 비디오에서 객체를 분할하는 통합 모델로, 실시간 상호작용 및 강력한 제로샷 성능을 제공함
- 다양한 실제 시나리오에서 사용할 수 있도록 설계되었으며, 연구 커뮤니티를 위해 공개된 데이터셋과 코드가 포함됨
- 비디오 객체 추적 및 분할에서 기존 모델보다 뛰어난 성능을 발휘하며, 적은 상호작용 시간으로도 높은 정확도를 제공함
- SAM 2는 비디오 생성 모델과 같은 다른 AI 시스템과 결합하여 새로운 경험을 가능하게 할 수 있음