생성 모델: 그들이 알고 있는 것은 무엇인가? 그들은 무엇을 알고 있는가? 알아보자

(intrinsic-lora.github.io)

1P by GN⁺ 2024-02-25 | ★ favorite | 댓글 1개

INTRINSIC LoRA (I-LoRA)의 숨겨진 능력 발견

INTRINSIC LoRA (I-LoRA)는 VQGAN, StyleGAN-XL, StyleGAN-v2, Stable Diffusion과 같은 생성 모델의 숨겨진 능력을 밝혀냄.
이 방법은 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 표면의 기본 속성인 법선, 깊이, 알베도, 음영을 추출함.

생성 모델의 잠재적 이해

생성 모델은 매우 상세하고 현실적인 이미지를 합성하는 능력이 있음.
이러한 모델들이 표면의 법선, 깊이 또는 그림자와 같은 이미지의 내재적 특성을 암묵적으로 학습하는 것으로 추정됨.
본 논문에서는 생성 모델이 실제로 고품질의 장면 내재적 맵을 내부적으로 생성한다는 유력한 증거를 제시함.

INTRINSIC LoRA (I-LoRA) 소개

INTRINSIC LoRA (I-LoRA)는 어떤 생성 모델도 장면 내재적 예측기로 변환하는 범용적이고 플러그 앤 플레이 방식을 소개함.
추가 디코더나 전체 네트워크의 미세 조정 없이 원래 생성기 네트워크로부터 직접 장면 내재적 맵을 추출할 수 있음.
이 방법은 생성 모델의 전체 매개변수 중 0.6% 미만을 차지하는 새로운 매개변수를 사용하여 핵심 특징 맵의 저랭크 적응(LoRA)을 활용함.
소량의 레이블이 붙은 이미지로 최적화되며, Diffusion 모델, GAN, Autoregressive 모델을 포함한 다양한 생성 아키텍처에 적용 가능함.

다양한 생성 모델에서의 장면 내재적 추출 능력 요약

생성기 헤드를 변경하지 않고도 다양한 생성 모델에서 고품질의 내재적 특성을 추출할 수 있음을 요약함.
✓: 고품질로 내재적 특성을 추출할 수 있음.
～: 중간 품질로 내재적 특성을 추출할 수 있음.
✗: 내재적 특성을 추출할 수 없음.

I-LoRA를 사용한 내재적 맵 생성 비교

증강된 Stable Diffusion 2.1을 사용하여 본 방법으로 생성된 내재적 맵과 유사한 지상 진실과의 비교를 그림으로 보여줌.

GN⁺의 의견

INTRINSIC LoRA (I-LoRA)는 기존 생성 모델의 잠재적 능력을 새로운 차원으로 확장시키는 혁신적인 접근법임.
본 연구는 생성 모델이 단순한 이미지 생성을 넘어 실제 장면의 내재적 특성을 이해하고 있다는 것을 보여줌으로써, 인공지능의 시각적 이해 능력에 대한 새로운 통찰을 제공함.
이 기술은 컴퓨터 비전, 그래픽스, AR/VR 등 다양한 분야에서 응용될 잠재력을 가지고 있어, 이 분야의 연구자나 개발자들에게 매우 흥미로운 발전임.

▲

GN⁺ 2024-02-25 [-]

Hacker News 의견

Sora에 대한 열광적인 반응 중 하나는, 내부에 물리적 세계 시뮬레이션이 있을 것 같다는 느낌이었음. 이는 단순히 다른 비디오들을 이어 붙이는 것 이상의 작업이 배후에서 이루어지고 있음을 나타냄.
- 모델들은 3D 장면을 렌더링하고 사진을 찍는 방법을 배움. 이는 우리가 3D 엔진을 만들려고 한 것이 아니라, 이미지들을 선형대수학에 던져 최적화한 결과로, 세계 시뮬레이터가 나온 것이 놀라움.
이름은 'Bojack Horseman'이라는 쇼에 나오는 가상의 게임쇼 'Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!'에서 참조됨.
Unity High Definition Rendering Pipeline 테스트 프로젝트에서 G-buffer를 추출하려고 시도했던 경험을 상기시킴.
- 이 논문이 실제로 무언가를 증명하고 있는지 확신할 수 없음. 거대한 UNET Lora 모델이 훈련되고 있어서, 기존 모델에서 무언가를 '추출'하는 것인지, 아니면 단순히 지연 렌더링 파이프라인에서 나올 법한 채널을 생성할 수 있는 새로운 모델을 만드는 것인지 불분명함.
이미지 생성 AI에 익숙하지 않은 사람으로서, 논문을 대충 읽었지만 이해하기 어려웠음.
- I-LoRA가 추가적인 레이어 없이 모델의 기존 디코더를 사용하여 정상, 깊이, 알베도, 음영과 같은 장면의 본질적인 속성을 추출한다고 하는데, 이것이 정확히 무엇을 의미하는지 설명을 요청함.
이것은 상당히 주목할 만함. 모델들이 인간이 이해할 수 있는 표현을 실제로 학습하고 있으며, 우리가 해독할 수 없는 수십억 차원의 초평면에서 일어나는 마법만을 수행하는 것이 아님.
이 연구는 VR(또는 공간 컴퓨팅)에 좋은 소식임. 모델이 물리적 세계를 잘 이해하고 있다면, 장면의 두 가지 투영을 생성하는 것은 어렵지 않아 보임. 앞으로 무엇이 나올지 매우 기대됨.
이 기술은 실제 이미지를 가져와 알베도와 조명을 예측할 수 있음. 누군가 이것을 사용하여 재조명 가능한 가우시안 스플래팅 장면을 만들어달라고 요청함. 동적 조명은 사진에서 만들어진 3D 스캔의 유용성을 크게 확장할 것이며, 아직 '좋다'고 할 만한 결과를 본 적이 없음.
이것은 이미지를 위한 GPT인가? 생성 모델을 가져와서 LoRA를 통해 표면 정상과 같은 하위 작업에 미세 조정을 적용하고, 이 모델들이 이러한 표현을 본질적으로 학습하고 있음을 결론지음. 감독된 접근법보다 더 나은 결과를 보임.
회의적인 것은 아니지만, 정상 맵 등이 이미지 생성 회사들에 의해 데이터셋에 풍부하게 포함되지 않았는지 어떻게 알 수 있을까?
- 이 논문은 그것을 검증할 수 있는 오픈 소스 모델에 링크되어 있지만, 이것이 더 발전된 모델들의 한 비밀 재료일 수도 있음.
예를 들어, 정상 맵은 어떻게 얻어지는가? AI가 이미지를 생성하기 전에 이를 생성하고, 내부 상태에서 그것들을 읽어내는 것인가?

답변달기