애플, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 공개
(github.com/apple)- SHARP는 단일 이미지를 입력받아 3D 가우시안 표현으로 변환해 사실적인 3D 뷰를 생성하는 모델
- 표준 GPU에서 1초 미만의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측
- 생성된 3D 표현은 실시간 렌더링이 가능하며, 절대 스케일을 포함한 메트릭 카메라 이동을 지원
- 여러 데이터셋에서 LPIPS 25–34% , DISTS 21–43% 개선과 함께 기존 모델 대비 세 자릿수 빠른 합성 속도 달성
- 오픈소스로 공개되어, 개발자들이 CLI 기반 예측·렌더링을 직접 실행하고 다양한 3D 렌더러와 연동 가능
SHARP 개요
-
SHARP(Sharp Monocular View Synthesis) 는 단일 사진으로부터 포토리얼리스틱한 3D 뷰를 생성하는 접근법
- 입력된 이미지를 기반으로 3D Gaussian 표현의 파라미터를 회귀 방식으로 추정
- 표준 GPU에서 단일 피드포워드 패스만으로 1초 미만의 처리 속도 달성
- 생성된 3D Gaussian 표현은 실시간 렌더링이 가능하며, 주변 시점에서의 고해상도 이미지를 제공
- 표현은 절대 스케일을 포함한 메트릭 구조로, 실제 카메라 이동을 지원
성능 및 일반화
- 실험 결과, SHARP는 다양한 데이터셋에서 제로샷 일반화 성능을 보임
- 기존 최고 성능 모델 대비 LPIPS 25–34% , DISTS 21–43% 감소
- 합성 시간은 세 자릿수 단축, 즉 기존 대비 약 1000배 빠른 처리 속도
설치 및 실행
- Python 3.13 환경에서 실행 가능하며,
pip install -r requirements.txt로 의존성 설치 - 명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행
-
sharp predict -i 입력경로 -o 출력경로 - 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장
- 수동 다운로드 시
-c옵션으로 지정 가능
-
- 출력 결과는 3D Gaussian Splat(3DGS) 형식의
.ply파일로 저장되며, 공개 3DGS 렌더러와 호환
렌더링 기능
- CUDA GPU 환경에서 카메라 궤적을 따라 비디오 렌더링 가능
-
--render옵션을 사용해 예측과 렌더링을 동시에 수행 - 또는 중간 결과(
.ply)를 이용해 별도 렌더링 실행 가능
-
- OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 스케일 및 회전 보정 필요
평가 및 참고 자료
- 정량적·정성적 평가 결과는 논문에 수록되어 있음
- 프로젝트 페이지에서 비교 영상 예시 확인 가능
라이선스 및 인용
- 코드와 모델은 각각 LICENSE, LICENSE_MODEL 파일의 조건에 따라 사용 가능
- 연구 인용 시 arXiv 논문 “Sharp Monocular View Synthesis in Less Than a Second (2025)” 참고
- 코드베이스는 여러 오픈소스 기여물을 기반으로 구축됨
Hacker News 의견들
-
HN에서 Apple의 SHARP 프로젝트가 다시 화제가 되었음
관련 토론은 이전 스레드에서도 있었음- “SHARP, an approach to photorealistic view synthesis from a single image”라는 제목으로 소개된 글을 다시 공유함
- AI 관련 GitHub 설치 가이드가 제대로 작동하지 않는다는 점을 지적함. 대부분 개발 환경이 이미 세팅되어 있다고 가정하고 있어서 초보자에게는 진입 장벽이 높음
-
SHARP의 공식 자료는 프로젝트 페이지와 논문(arXiv)에서 확인 가능함
- 한 사용자는 공식 페이지보다 Bradley의 데모 영상이 훨씬 인상적이라고 언급함
- 또 다른 사용자는 저자들이 모두 외국 출신으로 보인다며, STEM 인력 구성 변화에 대해 궁금증을 표현함
-
모델 라이선스에 “연구 목적 전용”이라고 명시되어 있어 실제로는 오픈소스가 아님
- README에도 오픈소스라는 언급은 없고, 단지 오픈소스 기반 위에 구축되었다고만 되어 있음
- Meta가 “오픈소스”의 의미를 왜곡시킨 영향으로, 이제는 단순히 가중치 공개 = 오픈소스로 인식되는 경향이 생겼다고 지적함
- 어떤 사용자는 “가중치는 저작권 대상이 아닐 수도 있다”며, 결국 Apple이 강제할 수 있는 법적 효력이 핵심이라고 말함
- 메인 라이선스에 제한이 명시되지 않아 혼란이 생긴 듯함
- 한 사용자는 “이걸로 수익성 있는 제품을 만들 수 있는지 연구해보겠다”고 밝힘
-
한 사용자는 이미 프로젝트를 MPS에서 렌더링 가능하게 포크했다고 하며, 자신의 GitHub 저장소를 공유함
- 다른 사용자는 “좋아 보인다”며 감사 인사를 전함
-
누군가는 “VR 포르노의 큰 날”이라며 농담 섞인 코멘트를 남김
- 이에 대해 다른 사용자는 실제로는 VR 콘텐츠 품질 한계가 명확하다고 설명함.
모델이 한 축에서만 추론하고, 해상도도 768px + 2레이어로 제한되어 있으며, 실시간 처리도 불가능함
올해는 오히려 이미지 편집·비디오 모델 쪽에서 더 큰 혁신이 있었다고 덧붙임 - 또 다른 사용자는 “Gaussian splat”이라는 용어가 전혀 다른 의미로 들린다고 농담함
- 이에 대해 다른 사용자는 실제로는 VR 콘텐츠 품질 한계가 명확하다고 설명함.
-
“대기업이 모델을 공개할 때마다 오픈소스 정의 논쟁이 반복된다”며, AI 모델의 ‘소스’ 개념이 소프트웨어와 다르다는 점을 지적함
Apple은 학문적 신뢰성을 얻으면서도 상업적 선택권을 유지하려는 것으로 보인다고 분석함- 다른 사용자는 “기술 자체가 놀라운데 라이선스 논쟁이 상단을 차지하는 게 아쉽다”고 말하며,
이 기술이 옛 사진을 VR로 체험할 수 있게 해주는 점이 Apple의 진정한 강점이라고 평가함 - 또 다른 사용자는 “which isn’t unsurprising”이라는 표현이 너무 복잡하다고 농담함
- “놀랍지 않다는 게 놀랍다”는 식의 유머도 이어짐
- 다른 사용자는 “기술 자체가 놀라운데 라이선스 논쟁이 상단을 차지하는 게 아쉽다”고 말하며,
-
“사람들이 같은 대상을 여러 장 찍는 경우가 많아, 사실상 입체 이미지 데이터를 제공하는 셈”이라고 언급함
- 다른 사용자는 “Live Photo의 프레임들도 활용 가능하다”고 덧붙임
-
어떤 사용자는 Conda를 싫어해서 테스트를 망설인다고 함
- 다른 사용자는 pixi를 추천하며, 사실 Conda 없이도 Python 3.13과
uv만 있으면 된다고 구체적인 설치 명령어를 공유함 - 또 다른 사용자는 “그건 비합리적인 싫음이 아니다”라며 공감함
- 다른 사용자는 pixi를 추천하며, 사실 Conda 없이도 Python 3.13과
-
한 사용자는 휴가 중 StereoCrafter와 GeometryCrafter 같은 관련 프로젝트를 실험 중이라며,
이를 영상에 적용하면 시간적 일관성(temporal consistency) 문제로 훨씬 어렵고 연산량이 많지만,
한국전쟁 시절의 옛 홈비디오를 공간화(spatialize)해봤더니 놀라울 정도로 잘 작동했다고 함
StereoCrafter 링크, GeometryCrafter 링크- 다른 사용자는 “그 예시를 꼭 보고 싶다”고 답함