GN⁺: 스트리밍 가능한 메모리 효율적인 라디언스 필드, SMERF
(smerf-3d.github.io)실시간 대규모 장면 탐색을 위한 스트리밍 가능한 메모리 효율적인 방사선 필드(SMERF)
- 실시간 시점 합성 기술의 발전으로 거의 사진 같은 장면을 실시간으로 렌더링하는 것이 가능해짐.
- 래스터화가 가능한 명시적 장면 표현과 레이 마칭에 기반한 신경 필드 간의 긴장 관계가 존재함.
- SMERF는 대규모 장면에서 실시간 방식으로 최고의 정확도를 달성하는 뷰 합성 접근법을 소개함.
대규모 장면을 처리하기 위한 표현력 증대 방법
- 대규모 다중 방 장면을 여러 독립적인 서브모델로 모델링하고, 렌더링 시 카메라 원점에 기반하여 서브모델을 선택함.
- 복잡한 시점 의존적 효과를 모델링하기 위해 각 서브모델 내에서 그리드에 정렬된 연기된 MLP 파라미터를 추가로 인스턴스화함.
- 각 서브모델이 전체 장면을 표현하지만, 고해상도로 모델링되는 것은 서브모델에 할당된 그리드 셀뿐임.
표현력 극대화를 위한 증류(distillation) 활용 방법
- 이미지 품질을 증류를 통해 크게 향상시킬 수 있음을 보여줌.
- 최신 오프라인 방사선 필드(Zip-NeRF)를 먼저 훈련시키고, 이 모델의 RGB 색상 예측을 자체 모델의 감독으로 사용함.
- 선생님 모델의 체적 밀도 값을 최소화하여 선생님과 학생 간의 볼륨 렌더링 가중치의 차이를 최소화함.
GN⁺의 의견
- SMERF는 대규모 장면에서 실시간으로 고품질의 뷰 합성을 가능하게 하는 혁신적인 기술임.
- 이 기술은 웹 브라우저 내에서 6DOF 내비게이션을 가능하게 하고, 다양한 일반 소비자 기기에서 실시간 성능을 제공함.
- SMERF의 접근 방식은 실시간 뷰 합성 분야에서 기존 기술을 능가하는 성능을 보여주며, 이는 가상 현실, 게임 개발, 온라인 부동산 투어 등 다양한 분야에 응용될 수 있는 흥미로운 발전임.
Hacker News 의견
- 베를린 위치의 화장실 벽에 있는 거울이 옆 방의 주방을 통해 볼 수 있음. 깊이 측정 알고리즘이 시차를 사용하고 거울이 창문처럼 혼란을 주어 이러한 현상이 발생하는 것으로 추정됨. 거울 뒷면이 주방에 흐릿한 영역을 만들지만, 그 흐릿함을 통해 양쪽 방을 볼 수 있음. 이 효과는 약간 으스스하게 느껴짐. 벽을 통과하는 유령 같은 느낌을 받음. 2년 된 s21fe에서도 인상적으로 잘 작동함.
- 베를린 데모에서 공간을 탐험하면서 더 많은 이미지가 스트리밍되는 것이 매우 인상적임. TV 반사 효과도 매우 인상적임. 하지만 모든 이미지가 로드될 때까지 장면이 렌더링되지 않아 초기 이미지 약 40개가 모두 로드되는 데 시간이 오래 걸림. 이미지가 도착하는 대로 부분적으로 렌더링을 시작하는 것이 가능한지, 아니면 첫 번째 큰 렌더링을 하기 전에 모든 이미지를 기다려야 하는지 궁금함.
- fulllivingroom 데모에 대한 몇 가지 질문이 있음. (FPS 모드 선호)
- 입력된 이미지는 몇 개인가?
- 이 모델을 계산하는 데 얼마나 걸리는가?
- 이 모델을 브라우저에서 모든 레벨 등으로 준비하는 데 얼마나 걸리는가?
- VR에서 이것을 시도해 본 적이 있는가?
- 이 렌더링 기법과 Cyberpunk 2077에서 생성된 BD 장면 사이에 어떤 관련이 있는지 궁금함. 볼륨과 "복셀"의 동작이 매우 비슷해 보임.
- Two Minutes Paper를 통해 이 기술을 따라가고 있으며, 사용하는 것을 기대하고 있음. 할아버지가 2년 전에 돌아가셨는데, 데모에서 사용한 것처럼 사진을 찍어두었음. 감사함.
- 캡처, 처리 및 탐색 가능한 3D 워크스루를 호스팅하는 오픈 소스 툴체인이 있는지 궁금함 (예: 오픈 소스 Matterport와 같은 것).
- 3D 가우시안 스플래팅과 성능, 품질 또는 데이터 크기 측면에서 이 기술이 어떻게 비교되는지에 대한 정보가 매우 인상적임.
- 이 기술들로부터 볼 수 있는 것은 매우 정확한 단일 탐색 가능한 3D 이미지임. 그러나 기능 및 객체 감지, 차단 및 추출에 대해서는 아직 아무것도 보지 못함. 희망적으로는 더 효율적이고 스트리밍 가능한 코덱이 분석에 더 쉽게 적용될 수 있는 구조를 필요로 함.
- 소비자 VR에서 이 기술을 언제 볼 수 있을지 궁금함. 이미 있을 것으로 예상했지만, 계산 제약 때문에 아직 없는 것 같음. Quest 2/3에서 실행하기에 충분한 계산 제약을 해소하는지, 또는 양안 사용을 방해하는 다른 요소가 있는지 궁금함.
- 저자에게 질문: 장면의 모델을 재구성하기 위해 최적화나 튜닝 방법을 사용하지 않는 기회가 있는지 궁금함. 장면의 뷰를 렌더링하는 효율적인 방법을 개선하고 있지만, 장면은 여전히 정적임. 장면을 재구성하는 데도 시간이 걸림. 비싼 재구성 비용 없이도 RF와 GS의 훌륭한 모습과 디테일을 달성할 수 있는 방법이 있는지, 이제 렌더링이 빠르게 이루어지는 새로운 표현으로 전통적인 CG 방법을 사용하여 장면을 탐욕스럽게 재구성할 수 있는 방법이 있는지 궁금함. 오해가 있다면 미리 사과하며, 여러분이 진행하는 작업에 대해 정말 감사함.