SHARP - 단일 이미지로부터 포토리얼리스틱 뷰를 합성하는 접근법
(apple.github.io)- 애플이 공개한 SHARP는 단일 사진으로부터 3D 가우시안 표현을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술
- 표준 GPU에서 1초 미만의 단일 신경망 피드포워드 패스로 처리하며, 실시간 렌더링이 가능
- 생성된 3D 표현은 절대 스케일을 가진 메트릭 표현으로, 실제 카메라 이동을 지원
- 여러 데이터셋에서 제로샷 일반화 성능을 보이며, 기존 모델 대비 LPIPS 25–34%, DISTS 21–43% 감소
- 기존 대비 합성 속도를 1000배 향상시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시
SHARP 개요
-
SHARP(Sharp Monocular View Synthesis) 는 단일 이미지로부터 포토리얼리스틱한 3D 뷰 합성을 수행하는 접근법
- 입력된 한 장의 사진에서 장면의 3D 가우시안 표현 파라미터를 회귀 방식으로 추정
- 이 과정은 표준 GPU에서 1초 미만에 완료됨
- 생성된 3D 가우시안 표현은 실시간 렌더링을 지원하며, 인접 시점에서 고해상도 이미지를 생성
- 초당 100프레임 이상의 렌더링 속도 달성
- 세밀한 구조와 선명한 디테일을 유지
기술적 특징
- SHARP의 3D 표현은 절대 스케일을 포함한 메트릭 표현으로, 실제 카메라 이동을 반영
- 단일 피드포워드 신경망 패스만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공
- 제로샷 일반화를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지
성능 및 비교 결과
- 여러 데이터셋에서 최신 성능(state of the art) 을 달성
- LPIPS 지표 25–34% , DISTS 지표 21–43% 개선
- 기존 최고 모델 대비 합성 시간 1000배 단축
- 이러한 성능 향상은 단일 이미지 기반 3D 뷰 합성의 효율성과 품질을 동시에 개선함
시각적 결과
- SHARP는 Unsplash의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화
- 인접 시점에서의 렌더링 결과는 선명한 디테일과 미세 구조를 유지
- 실시간 렌더링으로 자연스러운 시점 이동 구현
연구 출처
- 연구 논문은 arXiv:2512.10685에 게재
- 제목: Sharp Monocular View Synthesis in Less Than a Second
- 연구진: Lars Mescheder 외 12명
- 소속: Apple
Hacker News 의견들
-
“Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상임
직접 보고 싶다면 여기 링크를 참고할 수 있음- 기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
기술이 발전해도 인간에게 좋은 결과가 나올지 의문임 - 예전 AI의 “모든 게 개 머리로 변하던 시절” 같은 느낌이라 오히려 아름답게 느껴짐
- “san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임
- “Seth Brundle has entered the chat.” — 영화 The Fly의 주인공을 언급하며 변이된 영상 분위기를 비유함
- 기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
-
Apple Silicon에서 뭔가 작동하게 만들었음
ml-sharp GitHub 저장소에 작은 데모 GIF도 있음
Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참- GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음 - 예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐
- GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
-
“이게 정확히 뭘 하는 건가요?”
- 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
Gaussian splashing이 특히 멋짐 - 한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 패럴랙스 효과를 시뮬레이션함
인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
포트레이트 모드 효과와 비슷한 원리임 - 단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음
“Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상 - 한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 사실적인 이미지를 생성함
- 기본적으로 깊이 추정(depth estimation) 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움
이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
- 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
-
예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함- Apple은 Depth Pro 모델을 깊이 추정에 사용 중이며, 얼굴 표현은 꽤 잘된다고 함
Depth Pro GitHub / LearnOpenCV 설명
- Apple은 Depth Pro 모델을 깊이 추정에 사용 중이며, 얼굴 표현은 꽤 잘된다고 함
-
애플에서 만든건데 CUDA GPU 전용 임 관련 문서
- 흥미롭게도 Apple의 자체 모델이 MPS에서 작동하지 않음
몇 년은 기다려야 할 듯함 - Gaussian splat 출력은 CPU에서도 생성 가능함
지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음 - 수정된 버전은 여기에 있음
- 이 제한은 비디오 렌더링에만 해당됨
모델 자체는 GPU, CPU, MPS 모두에서 작동함 - 모델은 CUDA 없이도 작동함
결과물로 .ply 파일을 얻어 SparkJS 뷰어에 넣으면 됨
CUDA는 사이드 스크롤 영상 렌더링에만 필요함
- 흥미롭게도 Apple의 자체 모델이 MPS에서 작동하지 않음
-
“한 장의 사진에서 1초 이내에 사실적인 3D 표현을 생성한다”는 점이 핵심임
-
Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함
데모 영상- 하지만 결과물이 종종 흐릿하고 부자연스러운 공간을 만들어냄
Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음
- 하지만 결과물이 종종 흐릿하고 부자연스러운 공간을 만들어냄
-
Gaussian splat 샘플 파일이 있나?
- 직접 테스트해본 결과를 이 저장소에 올렸음
단, 예제는 하나뿐이라 일반화는 어려움
- 직접 테스트해본 결과를 이 저장소에 올렸음
-
결과가 인상적이긴 하지만 너무 날카롭고 인공적인 느낌이 듦
- 본인은 TMPI와 SHARP 결과 모두 마음에 듦
다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음
- 본인은 TMPI와 SHARP 결과 모두 마음에 듦