5P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • 애플이 공개한 SHARP는 단일 사진으로부터 3D 가우시안 표현을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술
  • 표준 GPU에서 1초 미만의 단일 신경망 피드포워드 패스로 처리하며, 실시간 렌더링이 가능
  • 생성된 3D 표현은 절대 스케일을 가진 메트릭 표현으로, 실제 카메라 이동을 지원
  • 여러 데이터셋에서 제로샷 일반화 성능을 보이며, 기존 모델 대비 LPIPS 25–34%, DISTS 21–43% 감소
  • 기존 대비 합성 속도를 1000배 향상시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시

SHARP 개요

  • SHARP(Sharp Monocular View Synthesis) 는 단일 이미지로부터 포토리얼리스틱한 3D 뷰 합성을 수행하는 접근법
    • 입력된 한 장의 사진에서 장면의 3D 가우시안 표현 파라미터를 회귀 방식으로 추정
    • 이 과정은 표준 GPU에서 1초 미만에 완료됨
  • 생성된 3D 가우시안 표현은 실시간 렌더링을 지원하며, 인접 시점에서 고해상도 이미지를 생성
    • 초당 100프레임 이상의 렌더링 속도 달성
    • 세밀한 구조와 선명한 디테일을 유지

기술적 특징

  • SHARP의 3D 표현은 절대 스케일을 포함한 메트릭 표현으로, 실제 카메라 이동을 반영
  • 단일 피드포워드 신경망 패스만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공
  • 제로샷 일반화를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지

성능 및 비교 결과

  • 여러 데이터셋에서 최신 성능(state of the art) 을 달성
    • LPIPS 지표 25–34% , DISTS 지표 21–43% 개선
    • 기존 최고 모델 대비 합성 시간 1000배 단축
  • 이러한 성능 향상은 단일 이미지 기반 3D 뷰 합성의 효율성과 품질을 동시에 개선

시각적 결과

  • SHARP는 Unsplash의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화
    • 인접 시점에서의 렌더링 결과는 선명한 디테일과 미세 구조를 유지
    • 실시간 렌더링으로 자연스러운 시점 이동 구현

연구 출처

  • 연구 논문은 arXiv:2512.10685에 게재
    • 제목: Sharp Monocular View Synthesis in Less Than a Second
    • 연구진: Lars Mescheder 외 12명
    • 소속: Apple
Hacker News 의견들
  • “Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상
    직접 보고 싶다면 여기 링크를 참고할 수 있음

    • 기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
      결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
      혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
      기술이 발전해도 인간에게 좋은 결과가 나올지 의문임
    • 예전 AI의 “모든 게 개 머리로 변하던 시절” 같은 느낌이라 오히려 아름답게 느껴짐
    • “san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임
    • “Seth Brundle has entered the chat.” — 영화 The Fly의 주인공을 언급하며 변이된 영상 분위기를 비유함
  • Apple Silicon에서 뭔가 작동하게 만들었음
    ml-sharp GitHub 저장소에 작은 데모 GIF도 있음
    Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참

    • GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
      AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음
    • 예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐
  • “이게 정확히 뭘 하는 건가요?”

    • 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
      이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
      Gaussian splashing이 특히 멋짐
    • 한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 패럴랙스 효과를 시뮬레이션함
      인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
      포트레이트 모드 효과와 비슷한 원리임
    • 단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음
      “Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
      Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상
    • 한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 사실적인 이미지를 생성함
    • 기본적으로 깊이 추정(depth estimation) 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움
      이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
  • 예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
    지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
    이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함

  • 애플에서 만든건데 CUDA GPU 전용 임 관련 문서

    • 흥미롭게도 Apple의 자체 모델이 MPS에서 작동하지 않음
      몇 년은 기다려야 할 듯함
    • Gaussian splat 출력은 CPU에서도 생성 가능함
      지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음
    • 수정된 버전은 여기에 있음
    • 이 제한은 비디오 렌더링에만 해당됨
      모델 자체는 GPU, CPU, MPS 모두에서 작동함
    • 모델은 CUDA 없이도 작동함
      결과물로 .ply 파일을 얻어 SparkJS 뷰어에 넣으면 됨
      CUDA는 사이드 스크롤 영상 렌더링에만 필요함
  • “한 장의 사진에서 1초 이내에 사실적인 3D 표현을 생성한다”는 점이 핵심임

  • Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함
    데모 영상

    • 하지만 결과물이 종종 흐릿하고 부자연스러운 공간을 만들어냄
      Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음
  • Gaussian splat 샘플 파일이 있나?

    • 직접 테스트해본 결과를 이 저장소에 올렸음
      단, 예제는 하나뿐이라 일반화는 어려움
  • 결과가 인상적이긴 하지만 너무 날카롭고 인공적인 느낌이 듦

    • 본인은 TMPI와 SHARP 결과 모두 마음에 듦
      다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음