# Meta, Segment Anything Model 3 (SAM 3) 공개

> Clean Markdown view of GeekNews topic #24489. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24489](https://news.hada.io/topic?id=24489)
- GeekNews Markdown: [https://news.hada.io/topic/24489.md](https://news.hada.io/topic/24489.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-20T16:33:05+09:00
- Updated: 2025-11-20T16:33:05+09:00
- Original source: [ai.meta.com](https://ai.meta.com/sam3/)
- Points: 7
- Comments: 1

## Summary

메타가 공개한 **SAM 3**는 텍스트·이미지 예시·시각적 프롬프트를 모두 이해해 이미지와 영상을 분할·추적하는 **통합 비전 모델**로, 사실상 “무엇이든 인식 가능한” 범용 인식 엔진에 한 걸음 더 다가섰습니다. 새로운 **SA‑Co 벤치마크**와 **SAM 3D**를 통해 2D를 넘어 3D 개념 분할까지 확장했으며, **Segment Anything Playground**로 누구나 실험·파인튜닝할 수 있는 환경도 제공합니다. 특히 **Marketplace·Instagram Edits·Meta AI** 등 실제 서비스에 이미 적용되며, 생성형 미디어 편집의 기반 기술로 자리 잡는 중입니다. 개발자 입장에선 비전 모델이 더 이상 연구용 도구가 아니라, **프롬프트 기반 인터페이스로 통합된 실시간 인식 플랫폼**으로 진화하고 있다는 점이 가장 흥미롭습니다.

## Topic Body

- 이미지와 영상에서 **텍스트·예시 이미지·시각적 프롬프트**로 원하는 개체를 찾고 분할하고 추적하는 **SAM 3** 공개  
- 모델 체크포인트, 평가 데이터셋, 파인튜닝 코드와 함께 **Segment Anything Playground**를 통해 누구나 쉽게 실험할 수 있는 환경 제공  
- **SA-Co**라는 새로운 대규모 개념 분할 벤치마크와 **SAM 3D** 공개로 2D·3D 전반을 포괄하는 개념 분할 생태계 확장  
- Marketplace·Instagram Edits·Meta AI 등 메타 서비스 전반에서 개체 분할 기반의 **새로운 미디어 생성·편집 기능**이 적용되고 있음  
- 텍스트·예시 기반의 개념 분할을 통합한 모델로서, 다양한 연구·산업·보전·로보틱스 분야에서 **범용 인식 기반 도구**로 활용 가능성이 커짐  
  
---  
### SAM 3 개요  
- **텍스트·이미지 예시·마스크·박스·포인트** 등 다양한 프롬프트를 받아 이미지·영상에서 개념을 탐지·분할·추적하는 통합 모델임  
  - 짧은 명사구 기반의 오픈 보캐불러리 분할을 기본 지원  
  - “people sitting down but not holding a gift box” 같은 복합 프롬프트는 MLLM과 결합해 처리 가능함  
- 기존 SAM이 정해진 라벨 세트에 묶였던 한계를 벗어나, **임의 개념(promptable concept) 분할**로 확장됨  
- 새로운 벤치마크 **SA-Co(Segment Anything with Concepts)** 로 이미지·영상에서 대규모 개념 인식 성능 측정  
  
### 주요 기능  
- 텍스트 프롬프트 기반 개념 탐지 및 모든 인스턴스 분할 지원  
  - “striped red umbrella” 같은 세부 묘사도 처리  
- 이미지 예시(exemplar)를 통해 실물 기반의 개념 정의 가능  
- SAM 1·2에서 제공하던 **박스/포인트/마스크 프롬프트** 유지  
- MLLM을 도구처럼 활용해 **복잡한 질의에 대한 반복적 탐색(SAM 3 Agent)** 수행  
  
### 데이터 엔진  
- SAM 3 + 사람 + AI anotator(Llama 3.2v 기반)이 결합된 **하이브리드 데이터 제작 파이프라인** 구축  
  - 자동 캡셔닝 → 텍스트 라벨 생성 → 초기 마스크 생성 → AI/사람 검증  
  - 부정 프롬프트(없는 개념)에서 **5배 빠른 처리**, 긍정 프롬프트에서도 **36% 속도 향상**  
- 4백만 개 이상의 고유 개념을 포함한 대규모 훈련 세트 구축  
- 위키 기반의 **개념 온톨로지**로 희귀 개념 커버리지 확장  
  
### 모델 아키텍처  
- 텍스트/이미지 인코더는 **Meta Perception Encoder** 기반  
- 객체 감지는 **DETR**, 추적은 SAM 2의 **memory bank + tracker** 구성 활용  
- 여러 작업(탐지·추적·분할)을 하나의 모델에서 수행하기 위한 충돌 방지 학습 레시피 설계가 핵심  
  
### 성능  
- 이미지·영상에서 기존 모델 대비 **cgF1 2배 향상**  
- Gemini 2.5 Pro, GLEE, OWLv2, LLMDet 등 전문 모델 대비 우수한 결과  
- 사용자 선호도 평가에서 SAM 3 결과가 **3:1 비율로 우세**  
- 단일 이미지 30ms, 영상에서도 객체 5개 기준 거의 실시간 처리  
- zero-shot LVIS·CountBench 등에서도 개선 성능 확인  
  
### 과학 및 실사용 사례  
- SA-FARI: 100종 이상·1만 개 이상의 야생동물 카메라 트랩 영상을 포함한 공개 데이터셋  
- FathomNet: 해양 생물 인스턴스 분할을 위한 새로운 벤치마크 제공  
- Marketplace “View in Room”: 조명·가구 등 실내 배치 시각화를 SAM 3·SAM 3D로 구현  
- Instagram Edits·Meta AI 앱·meta.ai 등에서 **개체 기반 영상 효과 적용** 기능 예정  
  
### SAM 3D  
- 단일 이미지에서의 **3D 객체·사람 재구성**을 위한 모델·코드·데이터 공개  
- 실제 공간 맥락을 고려한 **grounded reconstruction** 제공  
  
### 한계 및 앞으로의 과제  
- **세밀한 전문 분야 개념(platelet 등)** 에 대한 zero-shot 일반화는 제한적  
  - 적은 양의 데이터로 파인튜닝하면 빠르게 적응  
  - 오픈소스 파인튜닝 레시피 제공  
- 짧은 문장은 기본 지원하지만, **“top shelf second to last book”** 같은 복잡 서술은 MLLM 결합이 필요  
- 영상에서는 개체 수가 늘어날수록 처리 비용이 선형 증가  
  - 객체 간 관계 정보 공유가 향후 개선 포인트  
  
### Segment Anything Playground  
- 기술 지식 없이도 SAM 3를 실험할 수 있는 웹 기반 플랫폼  
  - 얼굴/번호판/스크린 픽셀화, 스포트라이트, 모션 트레일, 특정 객체 확대 등의 템플릿 제공  
  - 데이터 어노테이션과 스트레스 테스트에도 활용  
- Aria Gen 2 웨어러블 1인칭 영상에서도 안정적인 분할·추적 제공  
  - 인간 관점 기반의 로보틱스·퍼셉션 연구에 활용 가능

## Comments


### Comment 46604

- Author: neo
- Created: 2025-11-20T16:33:07+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45982073) 
- Meta가 여전히 **오픈소스에 기여**하고 이런 모델을 공개해주는 점이 고마움  
  회사에 대한 비판적인 시각이 있는 건 알지만, 이런 행동은 모두에게 이익이 되는 일임  
  - 나도 동의함. 예전에 2005년쯤 **보안 취약점**을 제보한 적이 있었는데, 그때는 회사 문화가 지금과 달랐음  
    지금은 커뮤니티 중심적인 방향으로 많이 바뀐 것 같음  
  - 소셜미디어 쪽은 별로 좋아하지 않지만, Meta의 **모델 공개 행보**는 인정해야 함  
    다른 대형 연구소들은 이런 식으로 모델을 공개하지 않음  

- 처음 써본 인상은 이 모델이 **엄청나게 뛰어남**  
  “zero-shot” 텍스트 기반 탐지가 이전 세대 모델이나 Gemini, Qwen 같은 최신 VLM보다 훨씬 앞서 있음  
  사람의 감독이 있으면 **교사 모델**로도 충분히 쓸 수 있을 것 같음  
  예전에 클라이밍 홀드 탐지를 위해 YOLO를 튜닝했는데, SAM3는 학습 없이도 그 결과의 90% 수준임  
  다만 낮은 대비의 나무 홀드나 작은 풋칩은 놓침  
  - 혹시 **Stokt 앱** 같은 걸 작업한 적 있나? 그 앱은 지금 클라이밍 분야에서 꽤 유명함  
  - 나는 10억 장의 이미지를 라벨링하는 플랫폼에서 일하고 있는데, SAM3가 그중 **90% 이상을 자동화**할 수 있을 거라 봄  
    이제는 사람이 모델을 돕는 게 아니라, 모델이 사람을 돕는 구조로 바뀌는 중임  
    관련 글은 [Roboflow 블로그](https://blog.roboflow.com/sam3/)에서 볼 수 있음  

- **3D 메쉬 생성기**도 정말 멋짐  
  [SAM3D 데모](https://ai.meta.com/sam3d/)를 보면, 의자에 앉은 사람처럼 **가려진 객체 분리**도 잘 처리하고 속도도 빠름  
  - 정말 인상적임. 그런데 **3D 메쉬를 직접 내보내기(export)** 할 수 있나?  
    나는 영상만 받을 수 있었는데, 혹시 토큰을 구매해야 하는 건지 궁금함  

- 내 사용 사례는 회로 기판의 **패턴 추적**인데, 이 모델은 그 부분에서 여전히 약함  
  해변의 말 같은 이미지는 잘 처리하지만, 산업용 데이터에는 덜 맞음  
  파인튜닝을 하면 나아질 것 같지만 아직 시도는 안 했음  
  - 흥미로운 사례임. 혹시 참고할 만한 **예시 링크**를 공유해줄 수 있나?  

- 나는 아이들 그림의 **배경 제거** 작업에 SAM3를 써봤음  
  ([관련 프로젝트 소개](https://breaka.club/blog/why-were-building-clubs-for-kids))  
  하지만 BiRefNet v2가 여전히 조금 더 정확하게 작동함  
  SAM3는 선을 따라 자를 때 약간 부정확하고, 종이의 흰 부분이 일부 남음  
  그래도 SAM3는 단순한 배경 제거를 넘어, **그림의 의미를 인식**하는 능력이 있음  
  아이들이 그린 그림을 인식해 게임 속 행동으로 연결할 수도 있을 듯함  
  - BiRefNet으로 배경 제거를 해본 게 흥미로움  
    지금 시점에서 가장 **성능이 좋은 모델**이라고 생각하나? 다른 대안도 궁금함  

- 논문 저자 목록에 “*Core contributor (Alphabetical, Equal Contribution)*” 같은 표기가 있는 게 보기 좋음  
  **기여자 평등 표기**가 인상적임  

- 지난 5년간 **컴퓨터 비전의 발전 속도**는 느렸음  
  언어 이해는 LLM 덕분에 인간 수준에 근접했지만, 비전은 여전히 부족함  
  객체 분할이나 과학 이미지 일반화가 어렵고, 충분한 데이터가 있음에도 뭔가 빠진 느낌임  
  **3D 환경에서의 에이전시**나 더 풍부한 학습 신호가 필요할지도 모르겠음  
  - 나는 전문가가 아니지만, **세계 모델(world model)** 이 부족하다고 느낌  
    인간은 시각 정보만으로 판단하지 않고, 맥락과 경험을 통해 보완함  
    예를 들어 밤길에서 어두운 형체를 보면, 과거 경험이나 주변 정보로 그것이 말인지, 울타리인지 추론함  
    이런 **맥락적 추론**이 현재 모델에는 결여되어 있음  
  - “LLM이 인간 수준으로 텍스트를 이해한다”는 말에는 여전히 **한계**가 있음  

- 내 분야는 의료 영상의 **3D 볼륨 분할**임  
  SAM2를 2D 슬라이스 방식으로 써봤지만, 현재 표준인 [nnUNet](https://github.com/MIC-DKFZ/nnUNet)보다 경쟁력이 떨어졌음  
  - Unet은 지난 10년간 의료 영상에서 가장 널리 쓰인 모델임  
    하지만 **LLM + VLM 결합**이 새로운 방향이 될 수 있다고 봄  
    실제로 [이 데모](https://chat.vlm.run/c/e062aa6d-41bb-4fc2-b3e4-7e70b45562cf)를 테스트해봤는데 꽤 잘 작동했음  

- SAM3는 멋진 모델임  
  이미 [chat.vlm.run](https://chat.vlm.run)에서 더 **인터랙티브한 방식**으로 활용할 수 있고,  
  우리 팀의 새로운 **Orion 모델** 위에서 SAM 및 다른 비전 모델들과 조합 가능함  
  곧 **비디오 분할과 트래킹** 기능도 추가될 예정임  
  - 실제로 테스트해봤는데, 사람과 개를 같은 채팅 세션에서 분리(segmentation)할 수 있었음  
    [결과 예시](https://chat.vlm.run/chat/cba92d77-36cf-4f7e-b5ea-b703e612eafa)  

- 평균 **4초의 지연 시간(latency)** 때문에 실시간 비디오에는 아직 어렵지 않을까 생각함  
  (출처는 roboflow.com의 관련 글에서 확인함)  
  - 그 수치는 아마 **컴퓨팅 리소스** 문제일 것임  
    블로그에 따르면 H200 GPU에서 100개 이상의 객체를 포함한 단일 이미지 처리에 **30ms**밖에 걸리지 않음