# 애플, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 공개

> Clean Markdown view of GeekNews topic #25384. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25384](https://news.hada.io/topic?id=25384)
- GeekNews Markdown: [https://news.hada.io/topic/25384.md](https://news.hada.io/topic/25384.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-28T09:38:07+09:00
- Updated: 2025-12-28T09:38:07+09:00
- Original source: [github.com/apple](https://github.com/apple/ml-sharp)
- Points: 6
- Comments: 1

## Summary

**애플의 오픈소스 모델 SHARP**는 단일 이미지를 입력받아 **3D 가우시안 표현**으로 변환해 사실적인 3D 뷰를 생성합니다. 표준 GPU에서 1초 미만의 단일 추론으로 장면 파라미터를 예측하며, 생성된 결과는 **실시간 렌더링과 메트릭 카메라 이동**을 지원합니다. 기존 모델 대비 세 자릿수 빠른 합성 속도와 최대 40%대 품질 개선을 달성했으며, CLI 기반으로 직접 예측과 렌더링을 실행할 수 있습니다.

## Topic Body

- **SHARP**는 단일 이미지를 입력받아 **3D 가우시안 표현**으로 변환해 사실적인 3D 뷰를 생성하는 모델  
- 표준 GPU에서 **1초 미만**의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측  
- 생성된 3D 표현은 **실시간 렌더링**이 가능하며, 절대 스케일을 포함한 **메트릭 카메라 이동**을 지원  
- 여러 데이터셋에서 **LPIPS 25–34%** , **DISTS 21–43%** 개선과 함께 기존 모델 대비 **세 자릿수 빠른 합성 속도** 달성  
- 오픈소스로 공개되어, 개발자들이 **CLI 기반 예측·렌더링**을 직접 실행하고 다양한 3D 렌더러와 연동 가능  

---

### SHARP 개요
- **SHARP(Sharp Monocular View Synthesis)** 는 단일 사진으로부터 **포토리얼리스틱한 3D 뷰**를 생성하는 접근법  
  - 입력된 이미지를 기반으로 **3D Gaussian 표현의 파라미터**를 회귀 방식으로 추정  
  - 표준 GPU에서 **단일 피드포워드 패스**만으로 1초 미만의 처리 속도 달성  
- 생성된 3D Gaussian 표현은 **실시간 렌더링**이 가능하며, 주변 시점에서의 고해상도 이미지를 제공  
- 표현은 **절대 스케일을 포함한 메트릭 구조**로, 실제 카메라 이동을 지원  

### 성능 및 일반화
- 실험 결과, SHARP는 다양한 데이터셋에서 **제로샷 일반화** 성능을 보임  
- 기존 최고 성능 모델 대비 **LPIPS 25–34%** , **DISTS 21–43%** 감소  
- **합성 시간은 세 자릿수 단축**, 즉 기존 대비 약 1000배 빠른 처리 속도  

### 설치 및 실행
- Python 3.13 환경에서 실행 가능하며, `pip install -r requirements.txt`로 의존성 설치  
- 명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행  
  - `sharp predict -i 입력경로 -o 출력경로`  
  - 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장  
  - 수동 다운로드 시 `-c` 옵션으로 지정 가능  
- 출력 결과는 **3D Gaussian Splat(3DGS)** 형식의 `.ply` 파일로 저장되며, **공개 3DGS 렌더러**와 호환  

### 렌더링 기능
- CUDA GPU 환경에서 카메라 궤적을 따라 **비디오 렌더링** 가능  
  - `--render` 옵션을 사용해 예측과 렌더링을 동시에 수행  
  - 또는 중간 결과(`.ply`)를 이용해 별도 렌더링 실행 가능  
- OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 **스케일 및 회전 보정** 필요  

### 평가 및 참고 자료
- 정량적·정성적 평가 결과는 논문에 수록되어 있음  
- [프로젝트 페이지](https://apple.github.io/ml-sharp/)에서 **비교 영상 예시** 확인 가능  

### 라이선스 및 인용
- 코드와 모델은 각각 **LICENSE**, **LICENSE_MODEL** 파일의 조건에 따라 사용 가능  
- 연구 인용 시 arXiv 논문 **“Sharp Monocular View Synthesis in Less Than a Second (2025)”** 참고  
- 코드베이스는 여러 **오픈소스 기여물**을 기반으로 구축됨

## Comments


### Comment 48340

- Author: neo
- Created: 2025-12-28T09:38:08+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46401539) 
- HN에서 **Apple의 SHARP 프로젝트**가 다시 화제가 되었음  
  관련 토론은 [이전 스레드](https://news.ycombinator.com/item?id=46284658)에서도 있었음  
  - “SHARP, an approach to photorealistic view synthesis from a single image”라는 제목으로 소개된 글을 다시 공유함  
  - AI 관련 **GitHub 설치 가이드**가 제대로 작동하지 않는다는 점을 지적함. 대부분 개발 환경이 이미 세팅되어 있다고 가정하고 있어서 초보자에게는 진입 장벽이 높음  

- SHARP의 공식 자료는 [프로젝트 페이지](https://apple.github.io/ml-sharp/)와 [논문(arXiv)](https://arxiv.org/abs/2512.10685)에서 확인 가능함  
  - 한 사용자는 공식 페이지보다 [Bradley의 데모 영상](https://x.com/SadlyItsBradley/status/2001227141300494550)이 훨씬 인상적이라고 언급함  
  - 또 다른 사용자는 저자들이 모두 외국 출신으로 보인다며, **STEM 인력 구성 변화**에 대해 궁금증을 표현함  

- [모델 라이선스](https://raw.githubusercontent.com/apple/ml-sharp/refs/heads/main/LICENSE_MODEL)에 “연구 목적 전용”이라고 명시되어 있어 실제로는 **오픈소스가 아님**  
  - README에도 오픈소스라는 언급은 없고, 단지 오픈소스 기반 위에 구축되었다고만 되어 있음  
  - Meta가 “오픈소스”의 의미를 왜곡시킨 영향으로, 이제는 단순히 **가중치 공개 = 오픈소스**로 인식되는 경향이 생겼다고 지적함  
  - 어떤 사용자는 “가중치는 저작권 대상이 아닐 수도 있다”며, 결국 Apple이 강제할 수 있는 **법적 효력**이 핵심이라고 말함  
  - [메인 라이선스](https://github.com/apple/ml-sharp/blob/main/LICENSE)에 제한이 명시되지 않아 혼란이 생긴 듯함  
  - 한 사용자는 “이걸로 수익성 있는 제품을 만들 수 있는지 연구해보겠다”고 밝힘  

- 한 사용자는 이미 프로젝트를 **MPS에서 렌더링 가능하게 포크**했다고 하며, [자신의 GitHub 저장소](https://github.com/rcarmo/ml-sharp)를 공유함  
  - 다른 사용자는 “좋아 보인다”며 감사 인사를 전함  

- 누군가는 “VR 포르노의 큰 날”이라며 농담 섞인 코멘트를 남김  
  - 이에 대해 다른 사용자는 실제로는 **VR 콘텐츠 품질 한계**가 명확하다고 설명함.  
    모델이 한 축에서만 추론하고, 해상도도 768px + 2레이어로 제한되어 있으며, **실시간 처리**도 불가능함  
    올해는 오히려 이미지 편집·비디오 모델 쪽에서 더 큰 혁신이 있었다고 덧붙임  
  - 또 다른 사용자는 “Gaussian splat”이라는 용어가 전혀 다른 의미로 들린다고 농담함  

- “대기업이 모델을 공개할 때마다 오픈소스 정의 논쟁이 반복된다”며, **AI 모델의 ‘소스’ 개념**이 소프트웨어와 다르다는 점을 지적함  
  Apple은 학문적 신뢰성을 얻으면서도 상업적 선택권을 유지하려는 것으로 보인다고 분석함  
  - 다른 사용자는 “기술 자체가 놀라운데 라이선스 논쟁이 상단을 차지하는 게 아쉽다”고 말하며,  
    이 기술이 **옛 사진을 VR로 체험**할 수 있게 해주는 점이 Apple의 진정한 강점이라고 평가함  
  - 또 다른 사용자는 “which isn’t unsurprising”이라는 표현이 너무 복잡하다고 농담함  
  - “놀랍지 않다는 게 놀랍다”는 식의 유머도 이어짐  

- “사람들이 같은 대상을 여러 장 찍는 경우가 많아, 사실상 **입체 이미지 데이터**를 제공하는 셈”이라고 언급함  
  - 다른 사용자는 “Live Photo의 프레임들도 활용 가능하다”고 덧붙임  

- 어떤 사용자는 Conda를 싫어해서 테스트를 망설인다고 함  
  - 다른 사용자는 [pixi](https://pixi.sh)를 추천하며, 사실 Conda 없이도 Python 3.13과 `uv`만 있으면 된다고 구체적인 설치 명령어를 공유함  
  - 또 다른 사용자는 “그건 비합리적인 싫음이 아니다”라며 공감함  

- 한 사용자는 휴가 중 **StereoCrafter**와 **GeometryCrafter** 같은 관련 프로젝트를 실험 중이라며,  
  이를 영상에 적용하면 **시간적 일관성(temporal consistency)** 문제로 훨씬 어렵고 연산량이 많지만,  
  한국전쟁 시절의 옛 홈비디오를 공간화(spatialize)해봤더니 놀라울 정도로 잘 작동했다고 함  
  [StereoCrafter 링크](https://github.com/TencentARC/StereoCrafter), [GeometryCrafter 링크](https://github.com/TencentARC/GeometryCrafter)  
  - 다른 사용자는 “그 예시를 꼭 보고 싶다”고 답함