삼각형 메시와 글로벌 일루미네이션을 활용한 Neural Rendering: RenderFormer

(microsoft.github.io)

4P by GN⁺ 5달전 | ★ favorite | 댓글 1개

RenderFormer는 삼각형 메시 기반 씬에서 글로벌 일루미네이션 효과까지 직접 구현하는 뉴럴 렌더링 파이프라인임
개별 씬 별 별도 학습이나 미세 조정 과정이 필요하지 않음
렌더링을 시퀀스-투-시퀀스 변환으로 정의해, 삼각형 토큰을 픽셀 패치 토큰으로 직접 변환함
트랜스포머 기반으로 전체 파이프라인이 설계되며, 최소한의 사전 제약만 적용됨
래스터화나 레이트레이싱을 쓰지 않고 이미지를 생성함

소개

RenderFormer는 삼각형 기반 씬 표현에서 직접 이미지를 렌더링하는 뉴럴 파이프라인임
글로벌 일루미네이션 효과가 완전히 적용된 이미지를 출력함
씬마다 별도의 훈련 또는 파인튜닝이 필요 없는 구조로 동작함

접근 방식

기존의 물리 기반 렌더링 방식과는 달리, 렌더링을 시퀀스-투-시퀀스 변환 문제로 재정의함
- 삼각형 및 반사 특성을 담은 토큰 시퀀스를, 각각 작은 픽셀 패치로 변환된 출력 토큰 시퀀스로 변환함

파이프라인 구조

RenderFormer는 2단계 구조로 구성됨
- 뷰 독립적 단계: 삼각형-간 조명 전달 현상을 모델링함
- 뷰 종속적 단계: 광선 다발을 나타내는 토큰을 픽셀 값으로 변환함. 이때 앞선 단계의 삼각형 시퀀스가 가이드 역할을 수행함
두 단계 모두 트랜스포머 구조를 바탕으로 함
최소한의 사전 제약만을 부여해 학습함

기술적 특징

렌더링 시 래스터화, 레이트레이싱 등 전통적 방법을 전혀 사용하지 않음
트랜스포머의 시퀀스 변환 능력을 적극적으로 활용함

결론

기존 뉴럴 렌더링 기술 대비, 별도의 사전 준비나 씬별 조정 필요 없이 유연하고 고품질의 이미지를 생성하는 접근 방식임

▲

GN⁺ 5달전 [-]

Hacker News 의견

가장 인상적인 점은 속도 부분임. 같은 장면에서 RenderFormer는 0.076초면 끝나는데, Blender Cycles는 3.97초(혹은 더 높은 세팅에선 12.05초) 소요임. 그런데 구조적 유사성 지수(SSIM)가 0.9526으로 거의 차이 없는 수준임. 논문에서 2번과 1번 표 참고 권장함. 이게 실제 의미하는 바는 3D 디자이너들이 웹이나 네이티브 앱에서 on-device transformer 모델로 인스턴트 렌더 프리뷰를 훨씬 높은 품질로 볼 수 있다는 것임. 단, 위 결과는 A100 GPU에서 PyTorch 최적화 없이 측정한 값이고 일반 유저 GPU는 이만큼 빠르진 않겠지만, 그래도 기존 렌더링보다 충분한 속도 향상이 가능할 것이라 예상함. 혹은 웹 기반 시스템이면 A100에 백엔드로 연결해서 브라우저로 결과 이미지를 스트리밍하는 방식도 가능함. 다만 한계점도 확실함. 장면이 복잡해질수록 정확도가 떨어지고, 특히 복잡한 그림자(입자나 머리카락 포함)에서 오차 발생 가능성이 크므로, 최종 렌더는 여전히 전통적인 방법으로 처리해야 AI 기반 이미지/비디오에서 자주 보이는 아티팩트를 피할 수 있음. 그래도 만약 속도 향상이 충분히 크면, 영화 길이 프리뷰 렌더링이 필요한 대형 애니메이션 스튜디오에서 음악이나 스토리 검토 등 용도로 쓸 수 있을 것이라 기대함
- 연구자들이 의도적으로 사실을 왜곡했다고는 생각하지 않지만, Blender Cycles가 그런 성능의 GPU라면 논문 속 모든 장면을 4초 이내에 렌더링할 수 있을 수준임. 논문에 사용된 장면들 자체가 복잡도가 낮은 데다, Blender를 4,000번 반복 샘플링하게 설정했는데, 실제론 몇백 번 만에 거의 최종 품질에 도달해서 나머지는 거의 효과가 없음. 그 결과 GPU 리소스를 불필요하게 소모하는 셈임. 또 Blender의 초기 렌더 준비 과정을 렌더링 시간에 포함한 반면, transformer 초기화 시간은 제외한 것으로 보임. 각 시스템에서 두 번째 프레임 렌더에 걸리는 시간도 궁금함. 내 예상으론 Blender가 훨씬 더 빠를 것 같음. 어쨌든 논문 결과 자체는 흥미로우나 Blender 설정과 타이밍 비교 부분엔 미묘한 차이가 있음
- 보여주는 장면들 기준으로 76ms는 오히려 오래 걸리는 편임. 물론 앞으로 훨씬 더 빨라질 거라 생각하지만, 기존 전통적 렌더보다 낫다고 평가하긴 시기상조라는 감상임
- 논문에서의 타임 비교는 다소 부정확함. 레이트레이싱에서는 샘플 수 제곱근에 따라 에러가 줄어듦. 논문에서는 참조 이미지를 생성할 때 비현실적으로 높은 샘플 수를 사용했는데, 실제 오프라인 렌더러는 이보다 10~100배 적게 샘플링함. 논문처럼 높은 샘플로 만든 이미지는 품질 비교용이지만, 그걸로 시간 비교하는 건 일반적이지 않음. 결과가 엄밀한 것이 아니므로, 비슷하게 근사 값을 내는 다른 렌더링 알고리즘과 비교하는 게 더 공정한 평가임. 요즘 리얼타임 패스 트레이서와 디노이저 조합도 소비자용 GPU로 16ms 이내에 훨씬 복잡한 장면을 렌더할 수 있음. 특히 transformer 모델은 삼각형과 픽셀 수에 대해 둘 다 제곱에 비례하는 시간 소요임. 최신 머신러닝 연구에서 개선된 부분이 있을지 모르겠지만, 전통적 path tracer의 O(log n triangles), O(n pixels) 스케일링에는 이기기 어려울 것임(실제로는 인접 픽셀 간의 일관성 덕에 픽셀 수 증가에 덜 민감함)
- 속도가 뛰어나다는 주장에 대해 놀라운 감상임. 논문을 대충 훑어봤는데, Blender Cycles가 A100의 CPU를 쓴 건지 CUDA 커널을 동원한 건지 확인이 어려웠음. 단일 프레임이면 렌더러 시작 시간이 일부 포함됐을 수 있음. 만약 시퀀스 렌더면 프레임 당 소요 시간이 크게 줄어듦. 그리고 다른 분이 언급한 삼각형 복잡도(O(n^2) 스케일링)도 확실히 영향을 줄 것임
- 논문에서 "Attention 레이어의 런타임-복잡도는 토큰 개수, 즉 이 경우 삼각형 개수에 비례하여 제곱으로 증가. 그래서 장면 내 삼각형 개수를 최대 4096개로 제한"이라 밝힘
딥러닝은 글로벌 일루미네이션 렌더 이미지의 디노이즈(노이즈 제거)에도 매우 성공적으로 쓰이고 있음. 전통적 레이트레이싱으로 거친 글로벌 일루미네이션 이미지를 뽑고, 신경망이 출력 이미지의 노이즈를 제거해주는 방식임. 관련 링크: Open Image Denoise
- 데모 출력 이미지가 신기하게 매끄러운 느낌임, 마치 AI 업스케일한 이미지 같은 인상임. 가장자리는 또렷하게 남는데, 원본 데이터보다 크게 늘리려고 할 때 텍스처 정보는 많이 잃는 식임. (추가) 100% 확대에서 디노이즈 비교하면 125% DPI 확대보다 결과가 더 좋게 보이고, 아래쪽 양치식물도 더 잘 식별 가능해짐
영화 산업에서 실제로 물리 기반 렌더러 개발하는 친구가 있는데, 이 업계 작업 방식이나 이야기 들으면 늘 흥미로움. 혹시 지금 이런 인재를 채용 중인 업체들이 어딘지 궁금함. AI 기업들이도 트레이닝용 환경 구축 목적으로 렌더링 엔지니어를 뽑는지 궁금함. 혹시 경험 많은 렌더링 연구/산업 엔지니어 채용 희망하는 분이 있다면, 내 친구가 SNS는 안 하기에 연결해줄 수 있음
- 친구한테 Gmail로 내 아이디로 메일 보내달라고 얘기해줬으면 하는 바람임
예시 중 어떤 것도 카메라 뒤의 오브젝트를 보여주지 않는 게 의아한 인상임. 이런 예시 구성의 한계인지 아니면 접근 자체의 한계인지는 모르겠지만, 반사나 라이팅 고려할 땐 카메라 뒤쪽이 굉장히 중요한 요소임
또 한 번 "the bitter lesson"이 실감되는 순간임. 이제 그래픽스 렌더링 분야에서도 이 흐름이 적용되는 것임. Nerf는 레이트레이싱 베이스 프라이어를, Gaussian splat은 래스터화 기반 프라이어를 부분적으로 사용했는데, 이 방식은 그런 도메인 프라이어나 전문적 지식 다 버리고 오직 데이터와 attention 자체만으로 해결을 시도함. 이런 방식이 결국 미래라는 느낌임
GPU를 중심으로 렌더링과 컴퓨트가 서로 순환 연결되는 구조가 완성됐다는 점이 인상적임
결과물이 괜찮긴 한데 다소 블러리한 느낌임. 뉴럴 네트워크와 고전적 렌더러간 렌더 타임 비교가 좀 더 있었으면 하는 바람임
- 애니메이션(특히 Animated Crab과 Robot Animation)에는 AI 아트 특유의 아티팩트가 눈에 띄는데, 오브젝트나 카메라가 움직일 때 모델 주변에 부자연스럽게 소용돌이치는 현상임
- 논문에서 시간 비교에 대한 논의가 일부 있음. Blender Cycles(패스 트레이싱)와 비교해서, 적어도 4K 삼각형 이하 장면에선 뉴럴 방식이 훨씬 더 빠름. 다만 그 이상 복잡한 장면엔 잘 안 맞을 수 있음(attention 런타임이 삼각형 개수의 제곱으로 증가하므로). 논문 링크: RenderFormer 논문 PDF. 내 생각엔 뉴럴 방식을 간접조명에만 쓰고, 전통적 래스터라이저로 베이스 이미지를 만들고 Global Illumination만 뉴럴로 덧입히는 식도 현실적 방법일 수 있음
혹시 잘 몰라서 그러는데, 이런 장면들은 결국 예상되는 방식대로 렌더된 거라면, 왜 이 방식이 더 간단한 직접적 방법들보다 이점이 있는지 궁금함(더 빠른 것도 아니라면 굳이 쓸 이유가 있나 하는 의문임)
- 사실 이 방식은 겉보기보다 더 재미난 효과를 낼 수도 있음. 예를 들어 씬을 하나의 input weight 뭉치로 간주해서 거기에 노이즈를 추가하거나, 서로 다른 씬을 interpolate(혼합)해서 예상 밖의 결과물을 얻을 수도 있을 것임
- 결국 이 방식은 "Cool Research"에 가깝다고 생각함. 실용성은 낮음, 왜냐하면 삼각형이 많아질수록 비용이 제곱으로 커지기 때문임. 그래서 논문에서도 씬마다 4096개로 제한함
- 다른 댓글에서 언급됐듯이, 이 방식이 더 빠른 것이긴 함. 글로벌 일루미네이션은 직접적 방법으로는 정말 느림
참신한 연구라는 인상임. 트랜스포머가 자연어 뿐 아니라 여러 연속적인 데이터 입력과 토큰 간 상관관계가 특징인 도메인에 두루 적용될 수 있다는 점에서 앞으로 비텍스트 도메인 적용 연구가 기대됨. Hacker News 유저들은 트랜스포머에 잘 맞을 듯한 비텍스트 도메인으로 어떤 게 더 흥미로운지 궁금함
아주 기발하고 흥미로운 아이디어라는 생각임. 삼각형 집합 기반 씬 디스크립션을 2D 픽셀 어레이로 바꿔주는 트랜스포머를 훈련시켜서, 그 결과가 기존 글로벌 일루미네이션 렌더러의 결과와 거의 비슷한 이미지를 즉석에서 만들어냄. 지난 5년간 연구를 보면 이런 게 가능하다는 사실 자체는 이제 안 놀라워야 하는데도, 여전히 굉장히 인상적임. 트랜스포머 구조가 정말 다재다능하다는 걸 느낌. 속도도 어마어마하게 빠르고, Blender 출력과 거의 비슷하고, 약 1B 파라미터 크기의 모델이고, fp16인지 32인진 불확실하나 파일이 2GB로 상당함. 좀 더 리얼리스틱한 씬 데모도 보고 싶지만, 당장 내 Mac에 다운로드해서 직접 돌려볼 수도 있는 점도 마음에 듦

답변달기