SAM 2: 이미지와 비디오를 위한 Segment Anything

(github.com/facebookresearch)

Segment Anything Model 2 는 이미지와 비디오에서 프롬프트 가능한 시각적 분할 문제를 해결하기 위한 모델
- 이미지를 단일 프레임의 비디오로 간주하여 비디오로 확장함
- 실시간 비디오 처리를 위한 스트리밍 메모리를 갖춘 간단한 트랜스포머 아키텍처를 사용
- 사용자 상호작용을 통해 모델과 데이터를 개선하는 데이터 엔진을 구축하여 SA-V 데이터셋을 수집
다양한 작업과 시각적 도메인에서 강력한 성능을 제공함
Segment Anything Video (SA-V) 데이터 셋도 공개
- 50,583개의 다양한 동영상과 642,036개의 고품질 시공간 분할 마스크(Masklet)로 구성
- CC by 4.0 라이센스

mIoU와 이미지 처리 속도 6배 향상에 관심이 있음
- 속도 향상은 주로 효율적인 인코더 덕분임
- 동일 이미지의 여러 세분화에서는 이점이 적을 수 있음
- 원래 SAM과의 비교가 필요함
Segment Anything 팀에서 SAM 2 모델을 출시함
- 실시간 객체 세분화를 위한 첫 통합 모델임
- 코드, 모델, 데이터셋, 연구 논문, 데모를 공개함
- 사용자들이 무엇을 만들지 기대됨
SAM 1을 다룬 적이 있음
- SAM 2 논문 요약:
  - 256 A100 GPU로 108시간 동안 훈련됨
  - 훈련 비용은 약 $50k로 저렴함
  - 새로운 SA-V 데이터셋은 50k 비디오로 구성됨
  - 3단계 주석 부트스트랩 방식 사용
  - 메모리 주의 기능이 추가됨
비디오 프레임을 분류하고 특정 프레임을 찾는 모델을 훈련하고 싶음
- SAM-2를 기본 모델로 사용해도 되는지 궁금함
SAM 손실 함수에 큰 팬임
- 감사의 뜻을 전함
웹 데모가 매우 깔끔함
- 각 신발을 개별 객체로 선택했을 때 모델이 겹쳐진 상태에서도 세분화함
SAM 첫 번째 모델이 가장 유용했음
- SAM2를 사용해 보는 것이 기대됨
연구 데모가 일리노이주와 텍사스주에서는 사용 불가함
- 이유가 궁금함
군사적 사용에 대한 우려가 있음
놀라운 성과임