# SHARP - 단일 이미지로부터 포토리얼리스틱 뷰를 합성하는 접근법

> Clean Markdown view of GeekNews topic #25137. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25137](https://news.hada.io/topic?id=25137)
- GeekNews Markdown: [https://news.hada.io/topic/25137.md](https://news.hada.io/topic/25137.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-17T09:55:34+09:00
- Updated: 2025-12-17T09:55:34+09:00
- Original source: [apple.github.io](https://apple.github.io/ml-sharp/)
- Points: 5
- Comments: 1

## Summary

**SHARP**는 단일 이미지에서 **3D 가우시안 표현**을 직접 추정해, 포토리얼리스틱한 새로운 시점을 실시간으로 합성합니다. 표준 GPU에서도 **1초 미만의 단일 신경망 패스**로 처리되어 복잡한 최적화 없이 고해상도 뷰를 생성하며, 실제 카메라 이동을 반영하는 **절대 스케일 메트릭 표현**을 제공합니다. 기존 대비 합성 속도를 1000배 향상시키며, 단일 이미지 기반 3D 뷰 합성의 효율성과 품질 모두에서 새로운 기준을 제시합니다.

## Topic Body

- 애플이 공개한 **SHARP**는 단일 사진으로부터 **3D 가우시안 표현**을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술  
- 표준 GPU에서 **1초 미만**의 단일 신경망 피드포워드 패스로 처리하며, **실시간 렌더링**이 가능  
- 생성된 3D 표현은 **절대 스케일을 가진 메트릭 표현**으로, 실제 카메라 이동을 지원  
- 여러 데이터셋에서 **제로샷 일반화** 성능을 보이며, 기존 모델 대비 **LPIPS 25–34%, DISTS 21–43% 감소**  
- 기존 대비 **합성 속도를 1000배 향상**시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시  
  
---  
  
### SHARP 개요  
- **SHARP(Sharp Monocular View Synthesis)** 는 단일 이미지로부터 **포토리얼리스틱한 3D 뷰 합성**을 수행하는 접근법  
  - 입력된 한 장의 사진에서 장면의 **3D 가우시안 표현 파라미터**를 회귀 방식으로 추정  
  - 이 과정은 **표준 GPU에서 1초 미만**에 완료됨  
- 생성된 3D 가우시안 표현은 **실시간 렌더링**을 지원하며, 인접 시점에서 **고해상도 이미지**를 생성  
  - 초당 **100프레임 이상**의 렌더링 속도 달성  
  - 세밀한 구조와 선명한 디테일을 유지  
  
### 기술적 특징  
- SHARP의 3D 표현은 **절대 스케일을 포함한 메트릭 표현**으로, 실제 카메라 이동을 반영  
- **단일 피드포워드 신경망 패스**만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공  
- **제로샷 일반화**를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지  
  
### 성능 및 비교 결과  
- 여러 데이터셋에서 **최신 성능(state of the art)** 을 달성  
  - **LPIPS 지표 25–34%** , **DISTS 지표 21–43%** 개선  
  - 기존 최고 모델 대비 **합성 시간 1000배 단축**  
- 이러한 성능 향상은 단일 이미지 기반 3D 뷰 합성의 **효율성과 품질을 동시에 개선**함  
  
### 시각적 결과  
- SHARP는 **Unsplash**의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화  
  - 인접 시점에서의 렌더링 결과는 **선명한 디테일과 미세 구조**를 유지  
  - **실시간 렌더링**으로 자연스러운 시점 이동 구현  
  
### 연구 출처  
- 연구 논문은 **arXiv:2512.10685**에 게재  
  - 제목: *Sharp Monocular View Synthesis in Less Than a Second*  
  - 연구진: Lars Mescheder 외 12명  
  - 소속: **Apple**

## Comments


### Comment 47879

- Author: neo
- Created: 2025-12-17T09:55:34+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46284658)   
- “Unsplash > Gen3C > The fly video”는 진짜 **악몽 같은 영상**임  
  직접 보고 싶다면 [여기 링크](https://apple.github.io/ml-sharp/video_selections/Unsplash/gen3c_aligned/-6ebJNtXtWs_0000-0001.mp4)를 참고할 수 있음  
  - 기업들이 이런 **끔찍한 결과물**을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람  
    결국 사람들은 현실 관계를 잃고 **가상 엔터테인먼트 슈트**에 매달리게 될 것 같음  
    혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음  
    기술이 발전해도 인간에게 좋은 결과가 나올지 의문임  
  - 예전 AI의 “모든 게 **개 머리로 변하던 시절**” 같은 느낌이라 오히려 아름답게 느껴짐  
  - “san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임  
  - “Seth Brundle has entered the chat.” — 영화 *The Fly*의 주인공을 언급하며 변이된 영상 분위기를 비유함  
  
- Apple Silicon에서 뭔가 작동하게 만들었음  
  [ml-sharp GitHub 저장소](https://github.com/rcarmo/ml-sharp)에 작은 데모 GIF도 있음  
  **Gaussian splat**을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참  
  - GIF의 **밴딩 아티팩트** 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음  
    AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음  
  - 예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐  
  
- “이게 정확히 뭘 하는 건가요?”  
  - 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 **입체적인 움직임**을 주는 기술임  
    이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌  
    Gaussian splashing이 특히 멋짐  
  - 한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 **패럴랙스 효과**를 시뮬레이션함  
    인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함  
    포트레이트 모드 효과와 비슷한 원리임  
  - 단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음  
    “Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임  
    Apple Photos 앱의 Spatial Scene 기능과 유사함 — [데모 영상](https://files.catbox.moe/93w7rw.mov)  
  - 한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 **사실적인 이미지**를 생성함  
  - 기본적으로 **깊이 추정(depth estimation)** 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움  
    이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함  
  
- 예제에 사람 얼굴이 거의 없다는 점이 눈에 띔  
  지금까지의 경험상 이런 모델들은 입체로 보면 인물이 **2D 종이인형처럼** 보임  
  이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함  
  - Apple은 **Depth Pro 모델**을 깊이 추정에 사용 중이며, 얼굴 표현은 꽤 잘된다고 함  
    [Depth Pro GitHub](https://github.com/apple/ml-depth-pro) / [LearnOpenCV 설명](https://learnopencv.com/depth-pro-monocular-metric-depth/)  
  
- 애플에서 만든건데 CUDA GPU 전용 임 [관련 문서](https://github.com/apple/ml-sharp#rendering-trajectories-cuda-gpu-only)  
  - 흥미롭게도 Apple의 자체 모델이 **MPS에서 작동하지 않음**  
    몇 년은 기다려야 할 듯함  
  - Gaussian splat 출력은 CPU에서도 생성 가능함  
    지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음  
  - 수정된 버전은 [여기](https://github.com/rcarmo/ml-sharp)에 있음  
  - 이 제한은 **비디오 렌더링**에만 해당됨  
    모델 자체는 GPU, CPU, MPS 모두에서 작동함  
  - 모델은 CUDA 없이도 작동함  
    결과물로 .ply 파일을 얻어 [SparkJS 뷰어](https://sparkjs.dev/examples/#editor)에 넣으면 됨  
    CUDA는 사이드 스크롤 영상 렌더링에만 필요함  
  
- “한 장의 사진에서 1초 이내에 **사실적인 3D 표현**을 생성한다”는 점이 핵심임  
  
- Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함  
  [데모 영상](https://files.catbox.moe/93w7rw.mov)  
  - 하지만 결과물이 종종 **흐릿하고 부자연스러운 공간**을 만들어냄  
    Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음  
  
- Gaussian splat 샘플 파일이 있나?  
  - 직접 테스트해본 결과를 [이 저장소](https://github.com/avaer/ml-sharp-example)에 올렸음  
    단, 예제는 하나뿐이라 일반화는 어려움  
  
- 결과가 인상적이긴 하지만 **너무 날카롭고 인공적인 느낌**이 듦  
  - 본인은 TMPI와 SHARP 결과 모두 마음에 듦  
    다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음