7P by GN⁺ 4일전 | ★ favorite | 댓글 1개
  • 이미지와 영상에서 텍스트·예시 이미지·시각적 프롬프트로 원하는 개체를 찾고 분할하고 추적하는 SAM 3 공개
  • 모델 체크포인트, 평가 데이터셋, 파인튜닝 코드와 함께 Segment Anything Playground를 통해 누구나 쉽게 실험할 수 있는 환경 제공
  • SA-Co라는 새로운 대규모 개념 분할 벤치마크와 SAM 3D 공개로 2D·3D 전반을 포괄하는 개념 분할 생태계 확장
  • Marketplace·Instagram Edits·Meta AI 등 메타 서비스 전반에서 개체 분할 기반의 새로운 미디어 생성·편집 기능이 적용되고 있음
  • 텍스트·예시 기반의 개념 분할을 통합한 모델로서, 다양한 연구·산업·보전·로보틱스 분야에서 범용 인식 기반 도구로 활용 가능성이 커짐

SAM 3 개요

  • 텍스트·이미지 예시·마스크·박스·포인트 등 다양한 프롬프트를 받아 이미지·영상에서 개념을 탐지·분할·추적하는 통합 모델임
    • 짧은 명사구 기반의 오픈 보캐불러리 분할을 기본 지원
    • “people sitting down but not holding a gift box” 같은 복합 프롬프트는 MLLM과 결합해 처리 가능함
  • 기존 SAM이 정해진 라벨 세트에 묶였던 한계를 벗어나, 임의 개념(promptable concept) 분할로 확장됨
  • 새로운 벤치마크 SA-Co(Segment Anything with Concepts) 로 이미지·영상에서 대규모 개념 인식 성능 측정

주요 기능

  • 텍스트 프롬프트 기반 개념 탐지 및 모든 인스턴스 분할 지원
    • “striped red umbrella” 같은 세부 묘사도 처리
  • 이미지 예시(exemplar)를 통해 실물 기반의 개념 정의 가능
  • SAM 1·2에서 제공하던 박스/포인트/마스크 프롬프트 유지
  • MLLM을 도구처럼 활용해 복잡한 질의에 대한 반복적 탐색(SAM 3 Agent) 수행

데이터 엔진

  • SAM 3 + 사람 + AI anotator(Llama 3.2v 기반)이 결합된 하이브리드 데이터 제작 파이프라인 구축
    • 자동 캡셔닝 → 텍스트 라벨 생성 → 초기 마스크 생성 → AI/사람 검증
    • 부정 프롬프트(없는 개념)에서 5배 빠른 처리, 긍정 프롬프트에서도 36% 속도 향상
  • 4백만 개 이상의 고유 개념을 포함한 대규모 훈련 세트 구축
  • 위키 기반의 개념 온톨로지로 희귀 개념 커버리지 확장

모델 아키텍처

  • 텍스트/이미지 인코더는 Meta Perception Encoder 기반
  • 객체 감지는 DETR, 추적은 SAM 2의 memory bank + tracker 구성 활용
  • 여러 작업(탐지·추적·분할)을 하나의 모델에서 수행하기 위한 충돌 방지 학습 레시피 설계가 핵심

성능

  • 이미지·영상에서 기존 모델 대비 cgF1 2배 향상
  • Gemini 2.5 Pro, GLEE, OWLv2, LLMDet 등 전문 모델 대비 우수한 결과
  • 사용자 선호도 평가에서 SAM 3 결과가 3:1 비율로 우세
  • 단일 이미지 30ms, 영상에서도 객체 5개 기준 거의 실시간 처리
  • zero-shot LVIS·CountBench 등에서도 개선 성능 확인

과학 및 실사용 사례

  • SA-FARI: 100종 이상·1만 개 이상의 야생동물 카메라 트랩 영상을 포함한 공개 데이터셋
  • FathomNet: 해양 생물 인스턴스 분할을 위한 새로운 벤치마크 제공
  • Marketplace “View in Room”: 조명·가구 등 실내 배치 시각화를 SAM 3·SAM 3D로 구현
  • Instagram Edits·Meta AI 앱·meta.ai 등에서 개체 기반 영상 효과 적용 기능 예정

SAM 3D

  • 단일 이미지에서의 3D 객체·사람 재구성을 위한 모델·코드·데이터 공개
  • 실제 공간 맥락을 고려한 grounded reconstruction 제공

한계 및 앞으로의 과제

  • 세밀한 전문 분야 개념(platelet 등) 에 대한 zero-shot 일반화는 제한적
    • 적은 양의 데이터로 파인튜닝하면 빠르게 적응
    • 오픈소스 파인튜닝 레시피 제공
  • 짧은 문장은 기본 지원하지만, “top shelf second to last book” 같은 복잡 서술은 MLLM 결합이 필요
  • 영상에서는 개체 수가 늘어날수록 처리 비용이 선형 증가
    • 객체 간 관계 정보 공유가 향후 개선 포인트

Segment Anything Playground

  • 기술 지식 없이도 SAM 3를 실험할 수 있는 웹 기반 플랫폼
    • 얼굴/번호판/스크린 픽셀화, 스포트라이트, 모션 트레일, 특정 객체 확대 등의 템플릿 제공
    • 데이터 어노테이션과 스트레스 테스트에도 활용
  • Aria Gen 2 웨어러블 1인칭 영상에서도 안정적인 분할·추적 제공
    • 인간 관점 기반의 로보틱스·퍼셉션 연구에 활용 가능
Hacker News 의견
  • Meta가 여전히 오픈소스에 기여하고 이런 모델을 공개해주는 점이 고마움
    회사에 대한 비판적인 시각이 있는 건 알지만, 이런 행동은 모두에게 이익이 되는 일임

    • 나도 동의함. 예전에 2005년쯤 보안 취약점을 제보한 적이 있었는데, 그때는 회사 문화가 지금과 달랐음
      지금은 커뮤니티 중심적인 방향으로 많이 바뀐 것 같음
    • 소셜미디어 쪽은 별로 좋아하지 않지만, Meta의 모델 공개 행보는 인정해야 함
      다른 대형 연구소들은 이런 식으로 모델을 공개하지 않음
  • 처음 써본 인상은 이 모델이 엄청나게 뛰어남
    “zero-shot” 텍스트 기반 탐지가 이전 세대 모델이나 Gemini, Qwen 같은 최신 VLM보다 훨씬 앞서 있음
    사람의 감독이 있으면 교사 모델로도 충분히 쓸 수 있을 것 같음
    예전에 클라이밍 홀드 탐지를 위해 YOLO를 튜닝했는데, SAM3는 학습 없이도 그 결과의 90% 수준임
    다만 낮은 대비의 나무 홀드나 작은 풋칩은 놓침

    • 혹시 Stokt 앱 같은 걸 작업한 적 있나? 그 앱은 지금 클라이밍 분야에서 꽤 유명함
    • 나는 10억 장의 이미지를 라벨링하는 플랫폼에서 일하고 있는데, SAM3가 그중 90% 이상을 자동화할 수 있을 거라 봄
      이제는 사람이 모델을 돕는 게 아니라, 모델이 사람을 돕는 구조로 바뀌는 중임
      관련 글은 Roboflow 블로그에서 볼 수 있음
  • 3D 메쉬 생성기도 정말 멋짐
    SAM3D 데모를 보면, 의자에 앉은 사람처럼 가려진 객체 분리도 잘 처리하고 속도도 빠름

    • 정말 인상적임. 그런데 3D 메쉬를 직접 내보내기(export) 할 수 있나?
      나는 영상만 받을 수 있었는데, 혹시 토큰을 구매해야 하는 건지 궁금함
  • 내 사용 사례는 회로 기판의 패턴 추적인데, 이 모델은 그 부분에서 여전히 약함
    해변의 말 같은 이미지는 잘 처리하지만, 산업용 데이터에는 덜 맞음
    파인튜닝을 하면 나아질 것 같지만 아직 시도는 안 했음

    • 흥미로운 사례임. 혹시 참고할 만한 예시 링크를 공유해줄 수 있나?
  • 나는 아이들 그림의 배경 제거 작업에 SAM3를 써봤음
    (관련 프로젝트 소개)
    하지만 BiRefNet v2가 여전히 조금 더 정확하게 작동함
    SAM3는 선을 따라 자를 때 약간 부정확하고, 종이의 흰 부분이 일부 남음
    그래도 SAM3는 단순한 배경 제거를 넘어, 그림의 의미를 인식하는 능력이 있음
    아이들이 그린 그림을 인식해 게임 속 행동으로 연결할 수도 있을 듯함

    • BiRefNet으로 배경 제거를 해본 게 흥미로움
      지금 시점에서 가장 성능이 좋은 모델이라고 생각하나? 다른 대안도 궁금함
  • 논문 저자 목록에 “Core contributor (Alphabetical, Equal Contribution)” 같은 표기가 있는 게 보기 좋음
    기여자 평등 표기가 인상적임

  • 지난 5년간 컴퓨터 비전의 발전 속도는 느렸음
    언어 이해는 LLM 덕분에 인간 수준에 근접했지만, 비전은 여전히 부족함
    객체 분할이나 과학 이미지 일반화가 어렵고, 충분한 데이터가 있음에도 뭔가 빠진 느낌임
    3D 환경에서의 에이전시나 더 풍부한 학습 신호가 필요할지도 모르겠음

    • 나는 전문가가 아니지만, 세계 모델(world model) 이 부족하다고 느낌
      인간은 시각 정보만으로 판단하지 않고, 맥락과 경험을 통해 보완함
      예를 들어 밤길에서 어두운 형체를 보면, 과거 경험이나 주변 정보로 그것이 말인지, 울타리인지 추론함
      이런 맥락적 추론이 현재 모델에는 결여되어 있음
    • “LLM이 인간 수준으로 텍스트를 이해한다”는 말에는 여전히 한계가 있음
  • 내 분야는 의료 영상의 3D 볼륨 분할
    SAM2를 2D 슬라이스 방식으로 써봤지만, 현재 표준인 nnUNet보다 경쟁력이 떨어졌음

    • Unet은 지난 10년간 의료 영상에서 가장 널리 쓰인 모델임
      하지만 LLM + VLM 결합이 새로운 방향이 될 수 있다고 봄
      실제로 이 데모를 테스트해봤는데 꽤 잘 작동했음
  • SAM3는 멋진 모델임
    이미 chat.vlm.run에서 더 인터랙티브한 방식으로 활용할 수 있고,
    우리 팀의 새로운 Orion 모델 위에서 SAM 및 다른 비전 모델들과 조합 가능함
    비디오 분할과 트래킹 기능도 추가될 예정임

    • 실제로 테스트해봤는데, 사람과 개를 같은 채팅 세션에서 분리(segmentation)할 수 있었음
      결과 예시
  • 평균 4초의 지연 시간(latency) 때문에 실시간 비디오에는 아직 어렵지 않을까 생각함
    (출처는 roboflow.com의 관련 글에서 확인함)

    • 그 수치는 아마 컴퓨팅 리소스 문제일 것임
      블로그에 따르면 H200 GPU에서 100개 이상의 객체를 포함한 단일 이미지 처리에 30ms밖에 걸리지 않음