GN⁺: 생성 모델: 그들이 알고 있는 것은 무엇인가? 그들은 무엇을 알고 있는가? 알아보자
(intrinsic-lora.github.io)INTRINSIC LoRA (I-LoRA)의 숨겨진 능력 발견
- INTRINSIC LoRA (I-LoRA)는 VQGAN, StyleGAN-XL, StyleGAN-v2, Stable Diffusion과 같은 생성 모델의 숨겨진 능력을 밝혀냄.
- 이 방법은 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 표면의 기본 속성인 법선, 깊이, 알베도, 음영을 추출함.
생성 모델의 잠재적 이해
- 생성 모델은 매우 상세하고 현실적인 이미지를 합성하는 능력이 있음.
- 이러한 모델들이 표면의 법선, 깊이 또는 그림자와 같은 이미지의 내재적 특성을 암묵적으로 학습하는 것으로 추정됨.
- 본 논문에서는 생성 모델이 실제로 고품질의 장면 내재적 맵을 내부적으로 생성한다는 유력한 증거를 제시함.
INTRINSIC LoRA (I-LoRA) 소개
- INTRINSIC LoRA (I-LoRA)는 어떤 생성 모델도 장면 내재적 예측기로 변환하는 범용적이고 플러그 앤 플레이 방식을 소개함.
- 추가 디코더나 전체 네트워크의 미세 조정 없이 원래 생성기 네트워크로부터 직접 장면 내재적 맵을 추출할 수 있음.
- 이 방법은 생성 모델의 전체 매개변수 중 0.6% 미만을 차지하는 새로운 매개변수를 사용하여 핵심 특징 맵의 저랭크 적응(LoRA)을 활용함.
- 소량의 레이블이 붙은 이미지로 최적화되며, Diffusion 모델, GAN, Autoregressive 모델을 포함한 다양한 생성 아키텍처에 적용 가능함.
다양한 생성 모델에서의 장면 내재적 추출 능력 요약
- 생성기 헤드를 변경하지 않고도 다양한 생성 모델에서 고품질의 내재적 특성을 추출할 수 있음을 요약함.
- ✓: 고품질로 내재적 특성을 추출할 수 있음.
- ~: 중간 품질로 내재적 특성을 추출할 수 있음.
- ✗: 내재적 특성을 추출할 수 없음.
I-LoRA를 사용한 내재적 맵 생성 비교
- 증강된 Stable Diffusion 2.1을 사용하여 본 방법으로 생성된 내재적 맵과 유사한 지상 진실과의 비교를 그림으로 보여줌.
GN⁺의 의견
- INTRINSIC LoRA (I-LoRA)는 기존 생성 모델의 잠재적 능력을 새로운 차원으로 확장시키는 혁신적인 접근법임.
- 본 연구는 생성 모델이 단순한 이미지 생성을 넘어 실제 장면의 내재적 특성을 이해하고 있다는 것을 보여줌으로써, 인공지능의 시각적 이해 능력에 대한 새로운 통찰을 제공함.
- 이 기술은 컴퓨터 비전, 그래픽스, AR/VR 등 다양한 분야에서 응용될 잠재력을 가지고 있어, 이 분야의 연구자나 개발자들에게 매우 흥미로운 발전임.
Hacker News 의견
-
Sora에 대한 열광적인 반응 중 하나는, 내부에 물리적 세계 시뮬레이션이 있을 것 같다는 느낌이었음. 이는 단순히 다른 비디오들을 이어 붙이는 것 이상의 작업이 배후에서 이루어지고 있음을 나타냄.
- 모델들은 3D 장면을 렌더링하고 사진을 찍는 방법을 배움. 이는 우리가 3D 엔진을 만들려고 한 것이 아니라, 이미지들을 선형대수학에 던져 최적화한 결과로, 세계 시뮬레이터가 나온 것이 놀라움.
-
이름은 'Bojack Horseman'이라는 쇼에 나오는 가상의 게임쇼 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'에서 참조됨.
-
Unity High Definition Rendering Pipeline 테스트 프로젝트에서 G-buffer를 추출하려고 시도했던 경험을 상기시킴.
- 이 논문이 실제로 무언가를 증명하고 있는지 확신할 수 없음. 거대한 UNET Lora 모델이 훈련되고 있어서, 기존 모델에서 무언가를 '추출'하는 것인지, 아니면 단순히 지연 렌더링 파이프라인에서 나올 법한 채널을 생성할 수 있는 새로운 모델을 만드는 것인지 불분명함.
-
이미지 생성 AI에 익숙하지 않은 사람으로서, 논문을 대충 읽었지만 이해하기 어려웠음.
- I-LoRA가 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 정상, 깊이, 알베도, 음영과 같은 장면의 본질적인 속성을 추출한다고 하는데, 이것이 정확히 무엇을 의미하는지 설명을 요청함.
-
이것은 상당히 주목할 만함. 모델들이 인간이 이해할 수 있는 표현을 실제로 학습하고 있으며, 우리가 해독할 수 없는 수십억 차원의 초평면에서 일어나는 마법만을 수행하는 것이 아님.
-
이 연구는 VR(또는 공간 컴퓨팅)에 좋은 소식임. 모델이 물리적 세계를 잘 이해하고 있다면, 장면의 두 가지 투영을 생성하는 것은 어렵지 않아 보임. 앞으로 무엇이 나올지 매우 기대됨.
-
이 기술은 실제 이미지를 가져와 알베도와 조명을 예측할 수 있음. 누군가 이것을 사용하여 재조명 가능한 가우시안 스플래팅 장면을 만들어달라고 요청함. 동적 조명은 사진에서 만들어진 3D 스캔의 유용성을 크게 확장할 것이며, 아직 '좋다'고 할 만한 결과를 본 적이 없음.
-
이것은 이미지를 위한 GPT인가? 생성 모델을 가져와서 LoRA를 통해 표면 정상과 같은 하위 작업에 미세 조정을 적용하고, 이 모델들이 이러한 표현을 본질적으로 학습하고 있음을 결론지음. 감독된 접근법보다 더 나은 결과를 보임.
-
회의적인 것은 아니지만, 정상 맵 등이 이미지 생성 회사들에 의해 데이터셋에 풍부하게 포함되지 않았는지 어떻게 알 수 있을까?
- 이 논문은 그것을 검증할 수 있는 오픈 소스 모델에 링크되어 있지만, 이것이 더 발전된 모델들의 한 비밀 재료일 수도 있음.
-
예를 들어, 정상 맵은 어떻게 얻어지는가? AI가 이미지를 생성하기 전에 이를 생성하고, 내부 상태에서 그것들을 읽어내는 것인가?