6P by GN⁺ 10일전 | ★ favorite | 댓글 1개
  • SHARP는 단일 이미지를 입력받아 3D 가우시안 표현으로 변환해 사실적인 3D 뷰를 생성하는 모델
  • 표준 GPU에서 1초 미만의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측
  • 생성된 3D 표현은 실시간 렌더링이 가능하며, 절대 스케일을 포함한 메트릭 카메라 이동을 지원
  • 여러 데이터셋에서 LPIPS 25–34% , DISTS 21–43% 개선과 함께 기존 모델 대비 세 자릿수 빠른 합성 속도 달성
  • 오픈소스로 공개되어, 개발자들이 CLI 기반 예측·렌더링을 직접 실행하고 다양한 3D 렌더러와 연동 가능

SHARP 개요

  • SHARP(Sharp Monocular View Synthesis) 는 단일 사진으로부터 포토리얼리스틱한 3D 뷰를 생성하는 접근법
    • 입력된 이미지를 기반으로 3D Gaussian 표현의 파라미터를 회귀 방식으로 추정
    • 표준 GPU에서 단일 피드포워드 패스만으로 1초 미만의 처리 속도 달성
  • 생성된 3D Gaussian 표현은 실시간 렌더링이 가능하며, 주변 시점에서의 고해상도 이미지를 제공
  • 표현은 절대 스케일을 포함한 메트릭 구조로, 실제 카메라 이동을 지원

성능 및 일반화

  • 실험 결과, SHARP는 다양한 데이터셋에서 제로샷 일반화 성능을 보임
  • 기존 최고 성능 모델 대비 LPIPS 25–34% , DISTS 21–43% 감소
  • 합성 시간은 세 자릿수 단축, 즉 기존 대비 약 1000배 빠른 처리 속도

설치 및 실행

  • Python 3.13 환경에서 실행 가능하며, pip install -r requirements.txt로 의존성 설치
  • 명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행
    • sharp predict -i 입력경로 -o 출력경로
    • 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장
    • 수동 다운로드 시 -c 옵션으로 지정 가능
  • 출력 결과는 3D Gaussian Splat(3DGS) 형식의 .ply 파일로 저장되며, 공개 3DGS 렌더러와 호환

렌더링 기능

  • CUDA GPU 환경에서 카메라 궤적을 따라 비디오 렌더링 가능
    • --render 옵션을 사용해 예측과 렌더링을 동시에 수행
    • 또는 중간 결과(.ply)를 이용해 별도 렌더링 실행 가능
  • OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 스케일 및 회전 보정 필요

평가 및 참고 자료

  • 정량적·정성적 평가 결과는 논문에 수록되어 있음
  • 프로젝트 페이지에서 비교 영상 예시 확인 가능

라이선스 및 인용

  • 코드와 모델은 각각 LICENSE, LICENSE_MODEL 파일의 조건에 따라 사용 가능
  • 연구 인용 시 arXiv 논문 “Sharp Monocular View Synthesis in Less Than a Second (2025)” 참고
  • 코드베이스는 여러 오픈소스 기여물을 기반으로 구축됨
Hacker News 의견들
  • HN에서 Apple의 SHARP 프로젝트가 다시 화제가 되었음
    관련 토론은 이전 스레드에서도 있었음

    • “SHARP, an approach to photorealistic view synthesis from a single image”라는 제목으로 소개된 글을 다시 공유함
    • AI 관련 GitHub 설치 가이드가 제대로 작동하지 않는다는 점을 지적함. 대부분 개발 환경이 이미 세팅되어 있다고 가정하고 있어서 초보자에게는 진입 장벽이 높음
  • SHARP의 공식 자료는 프로젝트 페이지논문(arXiv)에서 확인 가능함

    • 한 사용자는 공식 페이지보다 Bradley의 데모 영상이 훨씬 인상적이라고 언급함
    • 또 다른 사용자는 저자들이 모두 외국 출신으로 보인다며, STEM 인력 구성 변화에 대해 궁금증을 표현함
  • 모델 라이선스에 “연구 목적 전용”이라고 명시되어 있어 실제로는 오픈소스가 아님

    • README에도 오픈소스라는 언급은 없고, 단지 오픈소스 기반 위에 구축되었다고만 되어 있음
    • Meta가 “오픈소스”의 의미를 왜곡시킨 영향으로, 이제는 단순히 가중치 공개 = 오픈소스로 인식되는 경향이 생겼다고 지적함
    • 어떤 사용자는 “가중치는 저작권 대상이 아닐 수도 있다”며, 결국 Apple이 강제할 수 있는 법적 효력이 핵심이라고 말함
    • 메인 라이선스에 제한이 명시되지 않아 혼란이 생긴 듯함
    • 한 사용자는 “이걸로 수익성 있는 제품을 만들 수 있는지 연구해보겠다”고 밝힘
  • 한 사용자는 이미 프로젝트를 MPS에서 렌더링 가능하게 포크했다고 하며, 자신의 GitHub 저장소를 공유함

    • 다른 사용자는 “좋아 보인다”며 감사 인사를 전함
  • 누군가는 “VR 포르노의 큰 날”이라며 농담 섞인 코멘트를 남김

    • 이에 대해 다른 사용자는 실제로는 VR 콘텐츠 품질 한계가 명확하다고 설명함.
      모델이 한 축에서만 추론하고, 해상도도 768px + 2레이어로 제한되어 있으며, 실시간 처리도 불가능함
      올해는 오히려 이미지 편집·비디오 모델 쪽에서 더 큰 혁신이 있었다고 덧붙임
    • 또 다른 사용자는 “Gaussian splat”이라는 용어가 전혀 다른 의미로 들린다고 농담함
  • “대기업이 모델을 공개할 때마다 오픈소스 정의 논쟁이 반복된다”며, AI 모델의 ‘소스’ 개념이 소프트웨어와 다르다는 점을 지적함
    Apple은 학문적 신뢰성을 얻으면서도 상업적 선택권을 유지하려는 것으로 보인다고 분석함

    • 다른 사용자는 “기술 자체가 놀라운데 라이선스 논쟁이 상단을 차지하는 게 아쉽다”고 말하며,
      이 기술이 옛 사진을 VR로 체험할 수 있게 해주는 점이 Apple의 진정한 강점이라고 평가함
    • 또 다른 사용자는 “which isn’t unsurprising”이라는 표현이 너무 복잡하다고 농담함
    • “놀랍지 않다는 게 놀랍다”는 식의 유머도 이어짐
  • “사람들이 같은 대상을 여러 장 찍는 경우가 많아, 사실상 입체 이미지 데이터를 제공하는 셈”이라고 언급함

    • 다른 사용자는 “Live Photo의 프레임들도 활용 가능하다”고 덧붙임
  • 어떤 사용자는 Conda를 싫어해서 테스트를 망설인다고 함

    • 다른 사용자는 pixi를 추천하며, 사실 Conda 없이도 Python 3.13과 uv만 있으면 된다고 구체적인 설치 명령어를 공유함
    • 또 다른 사용자는 “그건 비합리적인 싫음이 아니다”라며 공감함
  • 한 사용자는 휴가 중 StereoCrafterGeometryCrafter 같은 관련 프로젝트를 실험 중이라며,
    이를 영상에 적용하면 시간적 일관성(temporal consistency) 문제로 훨씬 어렵고 연산량이 많지만,
    한국전쟁 시절의 옛 홈비디오를 공간화(spatialize)해봤더니 놀라울 정도로 잘 작동했다고 함
    StereoCrafter 링크, GeometryCrafter 링크

    • 다른 사용자는 “그 예시를 꼭 보고 싶다”고 답함