SHARP - 단일 이미지로부터 포토리얼리스틱 뷰를 합

▲

GN⁺ 5달전 | parent | ★ favorite | on: SHARP - 단일 이미지로부터 포토리얼리스틱 뷰를 합성하는 접근법 (apple.github.io)

Hacker News 의견들

“Unsplash > Gen3C > The fly video”는 진짜 악몽 같은 영상임
직접 보고 싶다면 여기 링크를 참고할 수 있음
- 기업들이 이런 끔찍한 결과물을 보고 더 빠르게 발전하려 들겠지만, 나는 아직 현실적인 영상이 남아 있기를 바람
  결국 사람들은 현실 관계를 잃고 가상 엔터테인먼트 슈트에 매달리게 될 것 같음
  혹시 운이 좋다면 증강현실 속에서 ‘진짜’ 사람을 만나려는 시도 정도는 남겠지만, 이미 우리는 기술에 너무 의존하고 있음
  기술이 발전해도 인간에게 좋은 결과가 나올지 의문임
- 예전 AI의 “모든 게 개 머리로 변하던 시절” 같은 느낌이라 오히려 아름답게 느껴짐
- “san check, 1d10” — 공포 게임 밈처럼 정신력 체크가 필요할 정도의 영상이라는 농담임
- “Seth Brundle has entered the chat.” — 영화 The Fly의 주인공을 언급하며 변이된 영상 분위기를 비유함
Apple Silicon에서 뭔가 작동하게 만들었음
ml-sharp GitHub 저장소에 작은 데모 GIF도 있음
Gaussian splat을 새로 구현하지 않고 근사하려고 하는데, 솔직히 좀 벅참
- GIF의 밴딩 아티팩트 덕분에 불꽃이 실제로 깜빡이는 것처럼 보여서 흥미로웠음
  AI가 사진 속 사진 구조를 인식해 불꽃 부분만 2D로 유지한 점이 인상적이었음
- 예제 결과는 솔직히 별로 인상적이지 않음. 하단 20%를 보면 품질이 떨어짐
“이게 정확히 뭘 하는 건가요?”
- 역사 다큐처럼 오래된 사진에서 인물이나 사물을 배경에서 분리해 입체적인 움직임을 주는 기술임
  이 소프트웨어는 그걸 1초 이내에 처리해 3D 모델을 만들어줌
  Gaussian splashing이 특히 멋짐
- 한 장의 2D 이미지를 가지고 카메라 각도를 바꾸는 듯한 패럴랙스 효과를 시뮬레이션함
  인물 분리도 잘 되고, 여러 피사체가 있는 장면도 처리 가능함
  포트레이트 모드 효과와 비슷한 원리임
- 단일 사진을 거친 3D 장면으로 변환해 카메라를 살짝 움직이면 새로운 시점을 볼 수 있음
  “Photorealistic”이란 실제 질감과 조명을 유지한다는 뜻임
  Apple Photos 앱의 Spatial Scene 기능과 유사함 — 데모 영상
- 한 장의 사진에서 숨겨진 3D 표현을 추론해, 약간 다른 시점에서 사실적인 이미지를 생성함
- 기본적으로 깊이 추정(depth estimation) 으로 장면을 여러 평면으로 나누고, 가려진 부분은 inpainting으로 채움
  이후 각 평면을 움직여 패럴랙스를 구현함 — 2D 횡스크롤 게임의 배경 깊이 효과와 비슷함
예제에 사람 얼굴이 거의 없다는 점이 눈에 띔
지금까지의 경험상 이런 모델들은 입체로 보면 인물이 2D 종이인형처럼 보임
이 모델이 실제로 입체감 있게 표현할 수 있을지는 모르겠지만, 사람 얼굴이 빠진 건 의미심장함
- Apple은 Depth Pro 모델을 깊이 추정에 사용 중이며, 얼굴 표현은 꽤 잘된다고 함
  Depth Pro GitHub / LearnOpenCV 설명
애플에서 만든건데 CUDA GPU 전용 임 관련 문서
- 흥미롭게도 Apple의 자체 모델이 MPS에서 작동하지 않음
  몇 년은 기다려야 할 듯함
- Gaussian splat 출력은 CPU에서도 생성 가능함
  지금까지 써본 AI 저장소 중 가장 쉽게 실행된 편이었음
- 수정된 버전은 여기에 있음
- 이 제한은 비디오 렌더링에만 해당됨
  모델 자체는 GPU, CPU, MPS 모두에서 작동함
- 모델은 CUDA 없이도 작동함
  결과물로 .ply 파일을 얻어 SparkJS 뷰어에 넣으면 됨
  CUDA는 사이드 스크롤 영상 렌더링에만 필요함
“한 장의 사진에서 1초 이내에 사실적인 3D 표현을 생성한다”는 점이 핵심임
Apple Photos 앱의 Spatial Scene 기능도 비슷하게 작동함
데모 영상
- 하지만 결과물이 종종 흐릿하고 부자연스러운 공간을 만들어냄
  Photoshop의 콘텐츠 인식 채우기가 오히려 더 나았던 시절도 있었음
Gaussian splat 샘플 파일이 있나?
- 직접 테스트해본 결과를 이 저장소에 올렸음
  단, 예제는 하나뿐이라 일반화는 어려움
결과가 인상적이긴 하지만 너무 날카롭고 인공적인 느낌이 듦
- 본인은 TMPI와 SHARP 결과 모두 마음에 듦
  다만 TMPI가 항상 더 밝게 나오는데, 어느 쪽이 정확한지는 모르겠음