# 메타, Segment Anything Model 2 도입

> Clean Markdown view of GeekNews topic #16136. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16136](https://news.hada.io/topic?id=16136)
- GeekNews Markdown: [https://news.hada.io/topic/16136.md](https://news.hada.io/topic/16136.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-02T10:13:21+09:00
- Updated: 2024-08-02T10:13:21+09:00
- Original source: [ai.meta.com](https://ai.meta.com/sam2/)
- Points: 2
- Comments: 0

## Topic Body

### Meta Segment Anything Model 2 (SAM 2) 소개

#### 주요 기능

- **모든 비디오 및 이미지에서 객체 분할**
  - SAM 2는 이미지와 비디오에서 객체를 분할하는 최초의 통합 모델임
  - 클릭, 박스, 마스크를 입력으로 사용하여 이미지나 비디오 프레임에서 객체를 선택할 수 있음

- **비디오 프레임 간 객체 선택 및 조정**
  - SAM 2를 사용하여 비디오 프레임에서 하나 또는 여러 객체를 선택할 수 있음
  - 추가 프롬프트를 사용하여 모델 예측을 세밀하게 조정할 수 있음

- **낯선 비디오에서도 강력한 분할 성능**
  - SAM 2는 모델 학습 중에 보지 못한 객체, 이미지, 비디오에서도 강력한 제로샷 성능을 발휘함
  - 다양한 실제 응용 프로그램에서 사용 가능함

- **실시간 상호작용 및 결과**
  - SAM 2는 스트리밍 추론을 통해 실시간 상호작용 애플리케이션을 가능하게 함

- **최첨단 객체 분할 성능**
  - SAM 2는 비디오 및 이미지에서 객체 분할에 있어 최고의 모델보다 뛰어난 성능을 발휘함

#### 하이라이트

- **이미지 분할에서 SAM보다 향상된 성능**
- **기존 비디오 객체 분할 모델보다 뛰어난 성능, 특히 부분 추적에서**
- **기존 상호작용 비디오 분할 방법보다 적은 상호작용 시간 필요**

#### 직접 사용해보기

- 비디오의 한 프레임에서 단일 클릭으로 객체를 추적하고 재미있는 효과를 만들어 볼 수 있음
- [데모 시도하기](#)

#### 모델 아키텍처

- **Meta Segment Anything Model 2 설계**
  - SAM 2 모델은 세션별 메모리 모듈을 추가하여 비디오 도메인으로 확장됨
  - 이 모듈은 비디오의 대상 객체에 대한 정보를 캡처하여 객체가 일시적으로 보이지 않더라도 모든 비디오 프레임에서 객체를 추적할 수 있게 함
  - 추가 프롬프트를 기반으로 마스크 예측을 수정할 수 있는 기능도 지원함
  - SAM 2의 스트리밍 아키텍처는 비디오 프레임을 하나씩 처리하여 비디오 도메인으로 자연스럽게 일반화됨

#### Segment Anything Video Dataset

- **대규모 및 다양한 비디오 분할 데이터셋**
  - SAM 2는 대규모 및 다양한 비디오와 마스크렛(시간 경과에 따른 객체 마스크) 세트에서 학습됨
  - 학습 데이터에는 공개 소스인 SA-V 데이터셋이 포함됨

- **하이라이트**
  - 약 51,000개의 비디오에서 약 600,000개 이상의 마스크렛 수집
  - 47개국에 걸친 지리적으로 다양한 실제 시나리오
  - 전체 객체, 부분, 도전적인 가림 현상을 포함한 주석

#### 연구 공개

- **오픈 이노베이션**
  - 연구 커뮤니티가 이 작업을 기반으로 구축할 수 있도록 사전 학습된 Segment Anything 2 모델, SA-V 데이터셋, 데모 및 코드를 공개함

- **하이라이트**
  - SAM 2 학습 데이터의 투명성 제공
  - 실제 세계를 대표하기 위해 SA-V 데이터셋의 지리적 다양성 우선
  - SAM 2의 공정성 평가 수행

#### 잠재적 모델 응용

- **확장 가능한 출력**
  - SAM 2의 비디오 객체 분할 출력은 현대 비디오 생성 모델과 같은 다른 AI 시스템의 입력으로 사용될 수 있음

- **확장 가능한 입력**
  - SAM 2는 실시간 또는 라이브 비디오에서 객체와 상호작용하는 창의적인 방법을 가능하게 하는 다른 유형의 입력 프롬프트를 수용할 수 있음

#### 추가 리소스 탐색

- [AI at Meta 블로그 읽기](#)
- [연구 논문 읽기](#)
- [데이터셋 다운로드](#)
- [데모 시도하기](#)

### GN⁺의 정리

- SAM 2는 이미지와 비디오에서 객체를 분할하는 통합 모델로, 실시간 상호작용 및 강력한 제로샷 성능을 제공함
- 다양한 실제 시나리오에서 사용할 수 있도록 설계되었으며, 연구 커뮤니티를 위해 공개된 데이터셋과 코드가 포함됨
- 비디오 객체 추적 및 분할에서 기존 모델보다 뛰어난 성능을 발휘하며, 적은 상호작용 시간으로도 높은 정확도를 제공함
- SAM 2는 비디오 생성 모델과 같은 다른 AI 시스템과 결합하여 새로운 경험을 가능하게 할 수 있음

## Comments



_No public comments on this page._
