애플, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 공개

(github.com/apple)

6P by GN⁺ 3달전 | ★ favorite | 댓글 1개

SHARP는 단일 이미지를 입력받아 3D 가우시안 표현으로 변환해 사실적인 3D 뷰를 생성하는 모델
표준 GPU에서 1초 미만의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측
생성된 3D 표현은 실시간 렌더링이 가능하며, 절대 스케일을 포함한 메트릭 카메라 이동을 지원
여러 데이터셋에서 LPIPS 25–34% , DISTS 21–43% 개선과 함께 기존 모델 대비 세 자릿수 빠른 합성 속도 달성
오픈소스로 공개되어, 개발자들이 CLI 기반 예측·렌더링을 직접 실행하고 다양한 3D 렌더러와 연동 가능

SHARP 개요

SHARP(Sharp Monocular View Synthesis) 는 단일 사진으로부터 포토리얼리스틱한 3D 뷰를 생성하는 접근법
- 입력된 이미지를 기반으로 3D Gaussian 표현의 파라미터를 회귀 방식으로 추정
- 표준 GPU에서 단일 피드포워드 패스만으로 1초 미만의 처리 속도 달성
생성된 3D Gaussian 표현은 실시간 렌더링이 가능하며, 주변 시점에서의 고해상도 이미지를 제공
표현은 절대 스케일을 포함한 메트릭 구조로, 실제 카메라 이동을 지원

성능 및 일반화

실험 결과, SHARP는 다양한 데이터셋에서 제로샷 일반화 성능을 보임
기존 최고 성능 모델 대비 LPIPS 25–34% , DISTS 21–43% 감소
합성 시간은 세 자릿수 단축, 즉 기존 대비 약 1000배 빠른 처리 속도

설치 및 실행

Python 3.13 환경에서 실행 가능하며, pip install -r requirements.txt로 의존성 설치
명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행
- sharp predict -i 입력경로 -o 출력경로
- 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장
- 수동 다운로드 시 -c 옵션으로 지정 가능
출력 결과는 3D Gaussian Splat(3DGS) 형식의 .ply 파일로 저장되며, 공개 3DGS 렌더러와 호환

렌더링 기능

CUDA GPU 환경에서 카메라 궤적을 따라 비디오 렌더링 가능
- --render 옵션을 사용해 예측과 렌더링을 동시에 수행
- 또는 중간 결과(.ply)를 이용해 별도 렌더링 실행 가능
OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 스케일 및 회전 보정 필요

평가 및 참고 자료

정량적·정성적 평가 결과는 논문에 수록되어 있음
프로젝트 페이지에서 비교 영상 예시 확인 가능

라이선스 및 인용

코드와 모델은 각각 LICENSE, LICENSE_MODEL 파일의 조건에 따라 사용 가능
연구 인용 시 arXiv 논문 “Sharp Monocular View Synthesis in Less Than a Second (2025)” 참고
코드베이스는 여러 오픈소스 기여물을 기반으로 구축됨

▲

GN⁺ 3달전 [-]

Hacker News 의견들

HN에서 Apple의 SHARP 프로젝트가 다시 화제가 되었음
관련 토론은 이전 스레드에서도 있었음
- “SHARP, an approach to photorealistic view synthesis from a single image”라는 제목으로 소개된 글을 다시 공유함
- AI 관련 GitHub 설치 가이드가 제대로 작동하지 않는다는 점을 지적함. 대부분 개발 환경이 이미 세팅되어 있다고 가정하고 있어서 초보자에게는 진입 장벽이 높음
SHARP의 공식 자료는 프로젝트 페이지와 논문(arXiv)에서 확인 가능함
- 한 사용자는 공식 페이지보다 Bradley의 데모 영상이 훨씬 인상적이라고 언급함
- 또 다른 사용자는 저자들이 모두 외국 출신으로 보인다며, STEM 인력 구성 변화에 대해 궁금증을 표현함
모델 라이선스에 “연구 목적 전용”이라고 명시되어 있어 실제로는 오픈소스가 아님
- README에도 오픈소스라는 언급은 없고, 단지 오픈소스 기반 위에 구축되었다고만 되어 있음
- Meta가 “오픈소스”의 의미를 왜곡시킨 영향으로, 이제는 단순히 가중치 공개 = 오픈소스로 인식되는 경향이 생겼다고 지적함
- 어떤 사용자는 “가중치는 저작권 대상이 아닐 수도 있다”며, 결국 Apple이 강제할 수 있는 법적 효력이 핵심이라고 말함
- 메인 라이선스에 제한이 명시되지 않아 혼란이 생긴 듯함
- 한 사용자는 “이걸로 수익성 있는 제품을 만들 수 있는지 연구해보겠다”고 밝힘
한 사용자는 이미 프로젝트를 MPS에서 렌더링 가능하게 포크했다고 하며, 자신의 GitHub 저장소를 공유함
- 다른 사용자는 “좋아 보인다”며 감사 인사를 전함
누군가는 “VR 포르노의 큰 날”이라며 농담 섞인 코멘트를 남김
- 이에 대해 다른 사용자는 실제로는 VR 콘텐츠 품질 한계가 명확하다고 설명함.
  모델이 한 축에서만 추론하고, 해상도도 768px + 2레이어로 제한되어 있으며, 실시간 처리도 불가능함
  올해는 오히려 이미지 편집·비디오 모델 쪽에서 더 큰 혁신이 있었다고 덧붙임
- 또 다른 사용자는 “Gaussian splat”이라는 용어가 전혀 다른 의미로 들린다고 농담함
“대기업이 모델을 공개할 때마다 오픈소스 정의 논쟁이 반복된다”며, AI 모델의 ‘소스’ 개념이 소프트웨어와 다르다는 점을 지적함
Apple은 학문적 신뢰성을 얻으면서도 상업적 선택권을 유지하려는 것으로 보인다고 분석함
- 다른 사용자는 “기술 자체가 놀라운데 라이선스 논쟁이 상단을 차지하는 게 아쉽다”고 말하며,
  이 기술이 옛 사진을 VR로 체험할 수 있게 해주는 점이 Apple의 진정한 강점이라고 평가함
- 또 다른 사용자는 “which isn’t unsurprising”이라는 표현이 너무 복잡하다고 농담함
- “놀랍지 않다는 게 놀랍다”는 식의 유머도 이어짐
“사람들이 같은 대상을 여러 장 찍는 경우가 많아, 사실상 입체 이미지 데이터를 제공하는 셈”이라고 언급함
- 다른 사용자는 “Live Photo의 프레임들도 활용 가능하다”고 덧붙임
어떤 사용자는 Conda를 싫어해서 테스트를 망설인다고 함
- 다른 사용자는 pixi를 추천하며, 사실 Conda 없이도 Python 3.13과 uv만 있으면 된다고 구체적인 설치 명령어를 공유함
- 또 다른 사용자는 “그건 비합리적인 싫음이 아니다”라며 공감함
한 사용자는 휴가 중 StereoCrafter와 GeometryCrafter 같은 관련 프로젝트를 실험 중이라며,
이를 영상에 적용하면 시간적 일관성(temporal consistency) 문제로 훨씬 어렵고 연산량이 많지만,
한국전쟁 시절의 옛 홈비디오를 공간화(spatialize)해봤더니 놀라울 정도로 잘 작동했다고 함
StereoCrafter 링크, GeometryCrafter 링크
- 다른 사용자는 “그 예시를 꼭 보고 싶다”고 답함

답변달기