1P by neo 1달전 | favorite | 댓글 1개
  • 인간은 3D 일관성이 없는 이미지에서도 3D 세계를 인식할 수 있음
  • Toon3D는 piecewise-rigid deformable 최적화를 통해 카메라 포즈와 고밀도 지오메트리를 복구 가능
  • 손그림 장면은 3D 일관성이 없지만, Toon3D를 사용해 복구하고, 이전에 본 적 없는 새로운 뷰를 보간할 수 있음

Abstract

  • Toon3D 제안
    • 비기하학적 일관성이 없는 장면의 기본 3D 구조를 복구함
    • 만화와 애니메이션의 손그림 이미지에 초점을 맞춤
    • 많은 만화는 3D 렌더링 엔진 없이 아티스트가 직접 그린 것임
    • 손그림 이미지는 세계를 정성적으로 충실히 표현하지만, 여러 관점을 3D 일관성 있게 그리기는 어려움
    • 사람들은 일관성이 없는 입력에서도 3D 장면을 쉽게 인식할 수 있음
    • 2D 그림의 불일치를 수정하여 새로 변형된 그림들이 서로 일관되도록 함
    • 사용자 친화적인 주석 도구, 카메라 포즈 추정, 이미지 변형을 통해 밀집 구조를 복구함
    • 이미지를 원근 카메라 모델에 맞게 변형하여 새로운 뷰 생성 재구성 방법에 플러그인 가능

만화 재구성

  • 카메라 포즈와 정렬된 포인트 클라우드를 먼저 복구함
  • 밀집 포인트 클라우드에서 가우시안을 초기화하고 복구된 카메라로 가우시안 스플래팅을 최적화함
  • 깊이 정규화가 있으며 Nerfstudio를 기반으로 구축됨
  • 장면의 플라이 스루 렌더링을 보여줌

방법

  • 각 이미지의 깊이를 Marigold로 예측하고 SAM으로 후보 일시적 마스크를 얻음
  • Toon3D 라벨러로 이미지를 라벨링하여 대응 관계를 얻고 일시적 영역을 표시함
  • 카메라 포즈를 최적화하고 이미지를 왜곡하여 보정된 원근 카메라를 얻음
  • 정렬된 밀집 포인트 클라우드로 가우시안을 초기화하고 정제를 실행함

Toon3D 라벨러

  • 방법의 두 가지 주요 단계를 보여줌
    • 희소 정렬 비디오: 대략적인 카메라 매개변수 추정
    • 밀집 정렬 비디오: 다양한 레이어(카메라, 희소 대응, 왜곡 메쉬 등)를 사용하여 3D에서 정렬하는 방법을 보여줌

Rick and Morty의 집 내부 탐험

  • 벽과 천장을 라벨링하여 방을 연결하여 Rick and Morty 집 내부를 재구성함
  • 첫 번째 비디오: 포인트 클라우드 및 카메라와 사용자 정의 라벨링 인터페이스를 보여줌
  • 두 번째 비디오: 슬라이더를 스크럽하여 집 내부를 둘러볼 수 있음

포인트 클라우드와 카메라

  • Toon3D 데이터셋의 12개 만화 장면에 대한 포인트 클라우드와 복구된 카메라를 보여줌
  • 아이콘을 클릭하여 장면을 탐험할 수 있음

희소 뷰 재구성

  • 적은 이미지와 큰 시점 변화로 장면을 재구성할 수 있음
  • COLMAP이 실패할 수 있는 곳에서 Toon3D 라벨러로 인간이 라벨링한 대응 관계를 얻어 개입할 수 있음
  • Airbnb 목록의 두 방("거실"과 "침실 2")에 대한 플라이 스루 렌더링을 보여줌

불일치 시각화

  • 만화는 손으로 그려졌기 때문에 이미지를 3D 일관성 있게 왜곡해야 함
  • 첫 번째 항목: 정렬 최적화 중 왜곡이 발생하는 비디오
  • 다음 두 항목: 원본 및 왜곡된 그림과 두 그림 간의 겹침을 보여주는 이미지
  • 흐릿한 영역은 많은 왜곡이 발생한 곳을 나타냄

그림 재구성

  • Toon3D를 사용하여 손으로 그린 그림도 재구성할 수 있음
  • 각 이미지의 깊이를 예측한 다음 포인트 클라우드를 정렬하고 왜곡함
  • 마지막으로 가우시안 정제를 사용하여 비디오를 생성함

GN⁺의 의견

  • Toon3D는 만화와 애니메이션의 손그림 이미지를 3D로 재구성하는 혁신적인 방법임
  • 이 기술은 새로운 시각적 경험을 제공하며, 특히 애니메이션 제작 및 게임 개발에 큰 도움이 될 수 있음
  • 하지만, 손으로 라벨링하는 과정이 다소 번거로울 수 있으며, 자동화된 방법이 더 발전하면 좋을 것임
  • 유사한 기능을 제공하는 다른 프로젝트로는 COLMAP과 Nerfstudio가 있음
  • 이 기술을 도입할 때는 정확한 라벨링과 깊이 예측이 중요하며, 이를 통해 더 일관된 3D 재구성을 얻을 수 있음
Hacker News 의견

해커뉴스 댓글 모음 요약

  • Futurama의 Planet Express 건물 예시

    • Futurama의 Planet Express 건물이 3D 불일치 예시로 사용된 것이 흥미로움. 실제로는 3D 모델로 생성된 것 같음.
    • 그래픽 아티스트가 아니지만, 일러스트레이터의 예술이 복잡한 의미를 전달하는 창의적인 표현 기법을 사용한다는 점을 높이 평가함.
    • 최근 LLMs(대형 언어 모델) 과대광고와 유사한 '혼란스러운' 3D 공간 재구성을 떠올리게 함.
  • 3D 공간 생성의 재미

    • 일관성 없는 소스 이미지로 3D 공간을 만드는 것이 매우 재미있는 아이디어임.
    • 몇 년 전 추상적인 비공간 이미지를 가상 현실 공간으로 변환하는 시도를 해봤음. 예를 들어, 칸딘스키나 폴록의 추상화 그림을 탐험 가능한 가상 현실 공간으로 변환하는 것.
    • 워크플로우는 추상화 이미지에서 시작해 SinGan을 사용하여 '장면'의 대체 '뷰포인트'를 생성하고, 3D 사진 인페인팅을 통해 깊이 맵핑을 수행한 후 포토그래메트리 앱에 프레임을 넣는 것임.
  • 미래의 3D 모델 생성 가능성

    • 상상한 장면의 그림을 바탕으로 (품질이 낮은) 3D 모델을 생성할 수 있다는 것이 놀라움.
    • 미래에는 아티스트가 몇 장의 이미지만으로 정확한 3D 모델을 얻을 수 있을지도 모름.
    • AI와 유사한 도구가 아티스트에게 미칠 영향에 대한 우려가 있음. 그러나 기계 학습 기반 시스템이 아티스트와 더 직접적으로 협력하는 미래를 상상할 수 있음.
    • 예술가가 예술을 창작하는 것의 가치를 생각할 때, AI가 예술가를 대체하는 것은 문명 전체에 나쁜 결과를 초래할 수 있음.
  • 2D 아트워크의 3D 변환 문제

    • 2D 아트워크는 일관된 3D 공간을 가지지 않음. 이 문제를 유용하게 해결하지 못한 것 같음.
    • 원래의 카메라 위치에서 벗어나면 장면이 거의 일관성이 없음.
  • 포토그래메트리와 VR

    • Quest 2를 사용해 포토그래메트리에 대해 연구한 경험이 있음. 여러 각도에서 찍은 사진을 사용해 3D 모델을 만드는 파이프라인을 탐구함.
    • VR로 포팅할 때 중요한 것은 깨끗한 메쉬를 만드는 것임. 현재 도구들은 3D 메쉬를 생성하지 않음.
    • Matterport와 같은 모델을 만들고 부동산 회사에 판매하려는 동기가 있었음. 그러나 깨끗한 메쉬를 자동으로 생성하는 단계가 가장 노동 집약적임.
  • 알고리즘의 개선 필요성

    • 특정 이미지의 관점에서 외관을 재현하는 데 있어 성능이 좋지 않음. 예를 들어, 매직 스쿨버스 예시가 있음.
    • 알고리즘이 이미지를 더 신뢰하도록 조정될 필요가 있음.
  • 사이트의 비디오 자동 재생 문제

    • 모든 비디오가 자동 재생되고 반복되는 사이트가 불편함. 두 번째 화면에서 비디오를 볼 때 사이트 방문 시 끊김 현상이 발생함.
  • 미야자키의 반응

    • Spirited Away 예시를 미야자키에게 보여주면 생명 자체에 대한 모욕이라고 할 것 같음.
  • 기대에 못 미치는 결과

    • 모든 예시가 매우 나쁘게 보임. 중간 프레임의 노이즈와 흐릿함 때문에 원본과 함께 사용할 수 없음.
    • 각 요소의 시작과 끝 지점이 거의 연결되지 않음. 벽, 문 등이 목적지로 날아가지만 최종 위치에서 몇 피트 떨어진 곳에서 사라짐.
    • 아이디어는 훌륭하지만 실제로 작동하는 버전을 보고 싶음.