세계 시뮬레이터로서의 비디오 생성 모델

(openai.com)

1P by GN⁺ 2024-02-17 | ★ favorite | 댓글 1개

OpenAI는 Sora를 통해 비디오 생성 모델을 단순 영상 합성을 넘어 물리·디지털 세계 시뮬레이션으로 확장할 수 있는지 탐구함
핵심 설계는 비디오와 이미지를 시간·공간적으로 압축한 잠재 공간에 넣고, 이를 시공간 패치로 나눠 Transformer 토큰처럼 학습하는 방식임
Sora는 고정 크기로 자르지 않고 가변 길이·해상도·화면비를 그대로 학습해 와이드스크린, 세로 비디오, 고해상도 이미지 생성을 같은 모델에서 처리함
DALL·E 3의 재캡셔닝을 비디오에 적용하고 GPT로 짧은 프롬프트를 상세 캡션으로 확장해 텍스트 충실도와 영상 품질을 높임
3D 일관성, 객체 지속성, Minecraft 같은 디지털 세계 시뮬레이션은 일부 가능하지만, 유리 파손이나 음식 섭취처럼 상태 변화가 필요한 물리 상호작용에는 한계가 남아 있음

Sora가 다루는 문제와 보고 범위

OpenAI는 비디오 데이터에 대한 대규모 생성 모델 학습을 탐구함
Sora는 다양한 길이, 해상도, 화면비의 비디오와 이미지를 함께 학습하는 텍스트 조건부 확산 모델임
가장 큰 모델인 Sora는 최대 1분 길이의 고충실도 비디오를 생성할 수 있음
이 기술 보고서는 두 가지에 초점을 둠
- 다양한 시각 데이터를 대규모 생성 모델 학습에 적합한 통합 표현으로 바꾸는 방법
- Sora의 능력과 한계에 대한 정성적 평가
모델 세부 구조와 구현 세부사항은 포함하지 않음
기존 비디오 생성 연구는 순환 신경망, GAN, 자기회귀 Transformer, 확산 모델 등 여러 방법을 사용했지만, 좁은 데이터 범주, 짧은 비디오, 고정 크기 비디오에 집중한 경우가 많았음
Sora는 다양한 길이, 화면비, 해상도에 걸쳐 비디오와 이미지를 생성하는 범용 시각 데이터 모델로 설계됨

시각 데이터를 패치로 통합하는 방식

대규모 언어 모델이 텍스트 토큰으로 코드, 수학, 자연어를 통합하듯, Sora는 시각 데이터에 패치를 사용함
비디오는 먼저 낮은 차원의 잠재 공간으로 압축되고, 이후 시공간 패치로 분해됨
패치 기반 표현은 다양한 비디오와 이미지 유형을 학습하는 데 확장 가능하고 효과적으로 작동함

비디오 압축과 시공간 잠재 패치

Sora는 원본 비디오를 픽셀 공간에서 직접 다루지 않고, 시간·공간적으로 압축된 잠재 표현에서 학습하고 생성함
별도의 디코더 모델이 생성된 잠재 표현을 다시 픽셀 공간으로 매핑함
압축된 입력 비디오에서 추출한 시공간 패치 시퀀스는 Transformer의 토큰처럼 작동함
이미지는 단일 프레임 비디오로 볼 수 있어 같은 방식으로 처리 가능함
추론 시에는 무작위 초기화 패치를 원하는 크기의 격자에 배치해 생성 비디오의 크기를 제어함

비디오 생성을 위한 확산 Transformer 확장

Sora는 잡음이 섞인 패치와 텍스트 프롬프트 같은 조건 정보를 입력받아 원래의 깨끗한 패치를 예측하도록 학습되는 확산 모델임
동시에 Sora는 확산 Transformer임
Transformer는 언어 모델링, 컴퓨터 비전, 이미지 생성 등 여러 영역에서 확장 특성을 보여왔고, Sora에서도 비디오 모델로 효과적으로 확장됨
같은 seed와 입력에서 학습이 진행되고 계산량이 늘어날수록 샘플 품질이 뚜렷하게 좋아짐
- 비교 예시는 base compute, 4x compute, 32x compute로 구성됨

원래 크기로 학습하는 이점

기존 이미지·비디오 생성 접근은 보통 4초, 256x256 같은 표준 크기로 리사이즈, 크롭, 트림함
Sora는 데이터를 원래 크기로 학습하는 방식에서 여러 이점을 얻음
샘플링 유연성
- Sora는 1920x1080p 와이드스크린 비디오, 1080x1920 세로 비디오, 그 사이의 다양한 비디오를 샘플링할 수 있음
- 서로 다른 기기에 맞는 콘텐츠를 네이티브 화면비로 직접 생성 가능함
- 같은 모델로 낮은 크기에서 빠르게 프로토타입을 만들고, 이후 전체 해상도로 생성할 수 있음
프레이밍과 구도 개선
- 원래 화면비로 학습하면 구도와 프레이밍이 개선됨
- 모든 학습 비디오를 정사각형으로 크롭한 모델은 피사체가 부분적으로만 보이는 비디오를 만들 때가 있음
- Sora는 정사각형 크롭 모델보다 프레이밍이 개선된 비디오를 생성함

언어 이해와 캡션 처리

텍스트-비디오 생성 시스템을 학습하려면 대응되는 텍스트 캡션이 있는 대량의 비디오가 필요함
OpenAI는 DALL·E 3에서 도입한 재캡셔닝 기법을 비디오에 적용함
먼저 매우 상세한 캡션을 만드는 모델을 학습한 뒤, 이를 사용해 전체 학습 비디오에 텍스트 캡션을 생성함
상세한 비디오 캡션으로 학습하면 텍스트 충실도와 전체 비디오 품질이 개선됨
DALL·E 3와 유사하게 GPT를 사용해 짧은 사용자 프롬프트를 긴 상세 캡션으로 바꾸고, 이를 비디오 모델에 전달함
이 방식은 Sora가 사용자 프롬프트를 더 정확히 따르는 고품질 비디오를 생성하는 데 쓰임

이미지와 비디오를 입력으로 쓰는 생성·편집

Sora는 텍스트뿐 아니라 기존 이미지나 비디오도 프롬프트로 받을 수 있음
이 기능은 완벽히 반복되는 비디오 생성, 정적 이미지 애니메이션화, 비디오를 앞뒤 시간으로 확장하는 작업 등에 활용됨
DALL·E 이미지 애니메이션화
- Sora는 이미지와 프롬프트를 입력받아 비디오를 생성할 수 있음
- 예시는 DALL·E 2와 DALL·E 3 이미지 기반 비디오 생성으로 구성됨
생성 비디오 확장
- Sora는 비디오를 시간상 앞으로 또는 뒤로 확장할 수 있음
- 생성된 비디오의 한 구간에서 시작해 뒤쪽 시간으로 확장한 세 비디오는 서로 다른 시작점을 갖지만 같은 결말로 이어짐
- 같은 방법으로 비디오를 앞뒤로 확장해 끊김 없는 무한 루프를 만들 수 있음
비디오-투-비디오 편집과 연결
- 확산 모델 기반 이미지·비디오 편집 방법 중 하나인 SDEdit을 Sora에 적용함
- 이 기법은 Sora가 입력 비디오의 스타일과 환경을 제로샷으로 변환할 수 있게 함
- 두 입력 비디오 사이를 점진적으로 보간해, 주제와 장면 구성이 완전히 다른 비디오 사이에도 매끄러운 전환을 만들 수 있음

이미지 생성 능력

Sora는 이미지도 생성할 수 있음
시간 길이가 한 프레임인 공간 격자에 Gaussian noise 패치를 배치하는 방식으로 이미지를 생성함
생성 가능한 이미지 크기는 가변적이며 최대 2048x2048 해상도까지 가능함
예시 프롬프트는 가을 인물 클로즈업, 산호초, 사과나무 아래 어린 호랑이 디지털 아트, 오로라가 있는 눈 덮인 산악 마을 등으로 구성됨

규모 확장에서 나타난 시뮬레이션 능력

대규모로 학습된 비디오 모델은 사람, 동물, 환경의 일부 측면을 시뮬레이션하는 창발적 능력을 보임
이런 특성은 3D나 객체에 대한 명시적 귀납 편향 없이 규모 확장에서 나타난 현상으로 다뤄짐
3D 일관성
- Sora는 동적인 카메라 움직임이 있는 비디오를 생성할 수 있음
- 카메라가 이동하거나 회전할 때 사람과 장면 요소가 3차원 공간에서 일관되게 움직임
장기 일관성과 객체 지속성
- 긴 비디오 샘플에서 시간적 일관성을 유지하는 것은 비디오 생성 시스템의 중요한 과제임
- Sora는 항상은 아니지만, 짧은 범위와 긴 범위의 의존성을 효과적으로 모델링할 때가 있음
- 사람, 동물, 객체가 가려지거나 프레임 밖으로 나가도 지속시키는 경우가 있음
- 하나의 샘플 안에서 같은 캐릭터의 여러 샷을 만들고, 비디오 전체에서 외형을 유지할 수 있음
세계와의 상호작용
- Sora는 단순한 방식으로 세계 상태에 영향을 주는 행동을 때때로 시뮬레이션함
- 예시는 화가가 캔버스에 남긴 붓자국이 시간이 지나도 유지되는 경우, 사람이 햄버거를 먹고 물린 자국이 남는 경우임
디지털 세계 시뮬레이션
- Sora는 비디오 게임 같은 인공 프로세스도 시뮬레이션할 수 있음
- Minecraft 예시에서는 기본 정책으로 플레이어를 제어하면서, 세계와 동역학을 높은 충실도로 렌더링할 수 있음
- “Minecraft”를 언급하는 캡션 프롬프트만으로 이런 능력을 제로샷으로 끌어낼 수 있음

현재 한계와 결론

Sora는 시뮬레이터로서 여러 한계를 갖고 있음
유리가 깨지는 것 같은 많은 기본 상호작용의 물리를 정확히 모델링하지 못함
음식을 먹는 상호작용처럼 객체 상태가 올바르게 변해야 하는 경우도 항상 정확하지 않음
긴 샘플에서 일관성이 무너지거나 객체가 갑자기 나타나는 실패 사례는 Sora 랜딩 페이지에 더 제시됨
현재 능력은 비디오 모델의 지속적 확장이 물리·디지털 세계와 그 안의 객체, 동물, 사람을 다루는 유능한 시뮬레이터 개발 경로가 될 수 있음을 보여줌

GN⁺ 2024-02-17 [-]

Hacker News 의견들

이 기술이 무엇을 가능하게 하는지 놓치고 있는 것 같음. 현실적인 물리 법칙을 가진 영상의 그럴듯한 연속 장면을 만들 수 있고, 이게 충분히 빨라져서 실시간으로 동작하면 큰 변화가 생김
실시간 카메라 피드가 있는 로봇에 연결해, 들어오는 화면의 가능한 미래 장면을 계속 여러 개 생성하게 하면 주변 세계의 실시간 모델을 만들고 미래를 예측하는 자율 로봇이 됨. 각 예측이 실제 결과와 얼마나 맞는지 기반으로 오차 보정을 붙이면 AGI에 정말 가까워질 수 있다고 봄
출력은 텍스트 생성이나 자기 움직임 제어와 연결할 수 있고, 스스로 취할 수 있는 행동들의 결과를 예측한 뒤 최선의 행동을 고르는 방식도 상상 가능함. 이런 용도라면 이미지가 완벽히 사실적이거나 오류가 없거나 고해상도일 필요도 없음. 우리 자신의 세계 상상도 얼마나 사실적인가를 생각해볼 만함
예를 들어 집 청소 로봇이 거실 이미지를 보고, 청소가 끝난 거실 이미지를 만든 다음, 자기가 방을 청소하는 영상을 보간해 상상하고, 그 영상에 맞춰 가능한 만큼 행동한 뒤 다시 연속 장면을 만들고 행동하는 식임. 필요하다면 초당 여러 번 반복할 수 있음
- 이건 계획 수립에 쓰는 세계 모델을 가진 에이전트에 가까움. 실제로 사실적인 이미지를 생성할 필요는 크지 않고, 세계 모델은 자체적인 압축 추상 표현 안에서 동작함
  이런 시스템으로는 V-Jepa를 볼 만함: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- 이론상으로는 맞지만, 문제는 우리가 이미 이론상 AGI를 여러 번 가졌다는 것임. 예를 들어 Q-러닝은 어떤 게임이나 시스템의 상태를 신경망에 넣고 가능한 미래 보상을 예측하게 한 뒤, 그 예측 정확도를 반복적으로 개선하면 결국 어떤 시스템에서도 최적 행동에 도달한다는 식임
  강화학습 실험을 해보면 “켜기만 하면 잘 동작하고 멋진 해법을 잔뜩 찾겠지”라는 기대가 늘 흥미롭지만, 실제로는 그럴 수도 있어도 대개는 그렇지 않음. 학습의 징후는 보이지만 엄청난 결과를 내지 못하는 경우가 많음
  Civilization 같은 비디오 게임에서 강한 인공지능이 나오는지를 계속 지켜보는 이유도, 복잡한 시스템의 문제를 풀면서도 게임 제작자가 실용적으로 구현할 수 있을 만큼 현실적인지 확인하고 싶어서임. 전문가 팀이 연구 프로젝트로 Civilization을 풀 수는 있겠지만, 실용성과는 거리가 큼. 게임 내 AI가 최선의 수를 예측하기 전에, 사람들의 Civilization 플레이 영상을 보여주기만 해도 영상 모델이 최선의 수를 예측할 수 있을지 의문임
- 흥미로운 점은 영상 데이터가 워낙 많아서, 이제 2D 픽셀 공간에서 미래를 투영할 수 있는 모델이 생겼다는 것임
  로봇공학의 최종 목표는 실제로는 3D 세계 공간에서 미래를 투영하는 것이고, 3D 세계 모델이 얼마나 복잡하냐에 따라 동작 가능한 3D 투영 모델은 훨씬 작을 수도 있다고 봄
  다만 그에 해당하는 데이터가 인터넷에 그만큼 쉽게 존재하지 않을 뿐임
- 다른 답변이 말하듯, 이건 Yann LeCun이 [1]에서 제시한 목표 지향 AI 아이디어와 맞닿아 있음. 논문에서는 그 이름을 쓰지 않았지만 LeCun은 발표와 슬라이드에서 그렇게 불렀고, 동시에 이런 것이 생성 모델로는 달성되지 않을 것이라고 말해왔음
  AI 분야에 오래 있다 보면 DeepBlue부터 합성곱 신경망, 심층 강화학습, 지금의 대규모 언어 모델까지 AGI로 이어질 것이라는 돌파구를 여러 번 보게 됨. 그때마다 사람들이 생각한 돌파구가 아니었거나, AGI에는 공학적 돌파구 하나보다 훨씬 더 많은 것이 필요하다는 뜻일 수 있음
  이 아이디어가 가능하다고 생각한다면 단순한 환경에서 직접 해보면 됨. 작은 격자 세계나 Nethack [2] 같은 텍스트 기반 게임의 단순화를 만들어, 시험관 안에서 구현해보고 얼마나 잘 동작하는지 확인할 수 있음. 논문도 쓸 수 있을 것임
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Nethack 자체로 시작하지 않는 게 좋음. “AI”에게는 너무 어려움
- Sora 같은 시스템은 분명 필요하지만, 그 자체만으로는 충분하지 않음. 제대로 추론할 수 있는 멀티모달 모델과 결합되면 AGI, 더 정확히는 ASI에 가까워질 수 있음
  인간보다 긴 문맥 길이, 적외선이나 전기감각 같은 추가 감각 양식, 훨씬 넓은 전문성, 거대한 대역폭 같은 이점이 있기 때문임
  Sora의 미래 후속 모델 + GPT-4의 유력한 후속 모델 = ASI라고 봄
  관련해서 쓴 다른 댓글: https://news.ycombinator.com/item?id=39391971
이 페이지가 최상위 결과만 보여주는 게 아니라 몇 가지 실패 사례도 보여줘서 좋음
예를 들어 서퍼가 마지막에 공중에서 서핑함: https://cdn.openai.com/tmp/s/prompting_7.mp4
깨져야 할 유리가 깨지지 않고 이상한 방식으로 액체만 흘리는 장면도 있음: https://cdn.openai.com/tmp/s/discussion_0.mp4
이 사람이 걷는 방식도 이상함: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
이 지도는 어디서 나온 건지도 모르겠음: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- 일부 대표 영상에서도 원근감과 시차 오류가 보임. 사람 피사체가 배경 사람들에 비해 너무 크거나, 맞지 않는 수평면 위에 서는 경우가 있음. 실제로 약간 어지러울 정도지만 그래도 매우 인상적임
- 지도 장면을 보면 약 6초쯤에 세 번째 손이 지도를 치우고 있음
- “이 사람이 걷는 방식” 장면에서는 왜 허리 아래쪽에서 우산이 튀어나와 있는지도 이상함
“음식을 먹는 것 같은 상호작용은 항상 올바른 객체 상태 변화를 만들지는 못한다”는 부분을 보니, 그래서 Will Smith가 스파게티 먹는 장면을 안 보여줬나 봄
“비디오 모델의 확장이 물리 세계와 디지털 세계의 고성능 시뮬레이터 개발로 가는 유망한 경로”라는 문장은 로봇공학에는 흥미롭지만, 더 가까운 활용처는 가우시안 스플래팅 장면의 빈틈 채우기일 수 있음
공간의 3D 워크스루를 만들려면 가능한 모든 각도를 끊김 없이 덮는 수백~수천 장의 사진이 필요하고 그래도 빠지는 부분이 생김. 이 정도 모델이면 숨은 모서리, 근접 디테일, 표준 재구성에서 구멍이나 흐림으로 남을 부분을 그럴듯하게 복원할 수 있을 듯함
장소 사진 5~10장만으로도 어느 각도에서든 탐색 가능한 매끄럽고 사실적인 3D 장면을 얻을 수도 있고, 사람이나 원치 않는 물체를 장면에서 제거하는 것도 가능해짐. 이렇게 외삽한 재구성이 모든 세부에서 현실과 완전히 일치하지는 않겠지만, 그래도 많은 응용을 가능하게 할 것임
- 그런 것은 “재구성”이라기보다 작가의 상상도라고 부르는 편이 더 정확함. 정확한 세부가 중요하지 않은 상황에는 좋지만, 세부가 중요하지 않다면 흐릿해도 충분할 수 있음
AlphaGo와 AlphaZero가 초인적 성능을 낸 것은 바둑에 대한 완벽한 시뮬레이터가 있었기 때문임. 우리가 사는 현실 세계에는 그런 시뮬레이터가 없음. 순수 대규모 언어 모델이 인간이 인식한 세계의 거칠고 추상적인 표현을 어느 정도 배우긴 하지만, Sora는 딥러닝으로 그런 시뮬레이터를 만들려는 시도임
“우리 결과는 비디오 생성 모델의 확장이 물리 세계의 범용 시뮬레이터를 만드는 유망한 경로임을 시사한다”는 문장이 핵심임
이런 시뮬레이터가 충분히 좋아지면 소프트웨어 측면에서 범용적이고 초인적인 로봇 능력을 얻을 수 있음. 이 접근으로 실제 달성 가능한지는 아직 확실하지 않음
왜 초인적인가 하면, 우리 작업 기억보다 긴 문맥 길이가 명백한 이점이고, 대체 감각 양식이나 대부분의 인간에게 익숙하지 않은 세부를 더 촘촘히 시뮬레이션하는 능력도 장점이 될 수 있음
- 내 직관과 반대로 가는 점이 정말 흥미로움. 현실의 카메라 스트림을 분석하고, 보이는 것을 비디오 게임처럼 다각형 표현으로 만든 다음, 그 기하 구조 위에서 AI가 의사결정하는 편이 훨씬 쉬울 거라고 생각했음
  그런데 AI의 흐름은 중간 단계를 건너뛰고 픽셀 데이터에서 직접 동작하는 쪽임. 3D 기하, 원근법, 물리에 대한 이해가 학습 데이터에서 자연스럽게 생겨나기를 기대하는 방식임
- 현실 세계의 완벽한 시뮬레이터는 이미 있음. 카메라로 녹화하면 됨. 연구자들이 방향을 잡고 한 자릿수 배 더 빠르게 학습하는 방법을 찾을 시간이 조금만 있으면 거기에 도달할 것임
Ylecun이 대형 모델을 학습시키는 데 영상이 더 좋다고 여러 번 말했던 것 같음. 영상은 정보 밀도가 더 높기 때문임
결과는 정말 인상적임. 이런 고품질 영상을 생성하고, 영상의 과거와 미래를 확장할 수 있다는 건 모델이 현실 세계, 객체 상호작용, 3D 구성 등을 얼마나 “이해”하는지 보여줌
이미지 생성도 이미 세계에 대해 많은 것을 알아야 하지만, 영상 생성은 모델이 3D와 물체 움직임, 상호작용을 알아야 한다는 점에서 훨씬 큰 격차가 있다고 봄
누군가 그림을 그리는 장면이 전부 생성된 영상이라는 게 미친 듯이 느껴짐
직접 써보고 싶지만 비용이 얼마나 비쌀지 상상도 안 됨. 전체 해상도로 학습하고 최대 1분짜리 영상을 생성할 수 있다니
영상 생성이 워낙 안 좋았기 때문에 이 수준까지 몇 년은 더 걸릴 줄 알았는데, 또 한 번 데이터와 연산량을 더하면 된다는 사례처럼 보임. Transformer가 다시 한번 무엇이든 학습하고 잘해낼 수 있음을 증명하는 듯함
메인 글도 반응이 많지만, 이 페이지는 정말 압도적임. 결과가 강렬함
로봇 예시는 꽤 실망스럽지만, 사람과 배경 인물은 대부분 매우 잘 만들어졌고, 정적 이미지 확산 모델 대부분보다 훨씬 나은 수준임. 사람이 물체와 상호작용하는 동안 같은 인물로 유지되는 것도 이런 모델이 이렇게 빨리 잘할 거라고 예상하지 못했음
이 모델이 명시적인 3D 사전 지식 없이도 이렇게 3D 일관성이 있는 영상을 생성한다는 게 놀라움. 그 영상에서 바로 NeRF 비슷한 3D 표현을 학습시킬 수 있을 정도임: https://twitter.com/BenMildenhall/status/1758224827788468722
- Stable Diffusion을 변형해 기존 이미지에서 HDR 구면 환경 맵을 만드는 작업도 비슷하게 놀라웠음: https://diffusionlight.github.io/
  더 놀라운 건 모델에게 이미지 중앙에 크롬 구를 인페인팅하게 해서 카메라 뒤쪽에 무엇이 있는지 반사로 만들게 한다는 점임. 모델이 문맥을 해석하고 전체 환경에 그럴듯하게 있을 법한 것을 상상해냄
- 자세히 보면 그렇지 않음. 예시들에는 불일치가 아주 많음. 카메라가 회전할 때 원근이 완전히 틀리고, 창문 원근이 바뀌고, 파티오가 갑자기 깊어지거나 얕아짐. 카메라가 움직일 때 그림자가 생겼다 사라지기도 함
  다른 예시에서는 길, 물체, 사람이 갑자기 나타나거나 사라지고, 돌이 사람으로 바뀌며, 말이 갑자기 두 번째 머리를 갖다가 두 다리만 있는 별도의 말이 되기도 함
  얼핏 보면 인상적이지만, 집중해서 보면 사실성보다는 꿈에 가까움. 장기적인 시간·공간·인과 일관성 없이 이미지에서 이미지를 떠올리는 식임. 10년 된 Google DeepDream보다 크게 더 인상적이라고 보긴 어려움
- 모델의 어떤 변형이 이미지 대신 3D 메시와 카메라 애니메이션을 직접 출력하게 할 수 있을지 궁금함
- 2D 확산 모델에서도 마찬가지임[1]. 조명, 그림자, 객체 가림 같은 것 때문에 3D가 어떻게 작동하는지 이해해야 하는 듯함
  [1] https://dreamfusion3d.github.io/
- 스테레오 이미지 데이터로 학습하면 얼마나 더 좋아질지 궁금함
흥미로운 아이디어임. 대규모 언어 모델이 단순한 “텍스트 예측기”지만 일관된 텍스트를 제대로 예측하려면 언어와 세계의 모델을 배워야 하는 것처럼, 영상 예측기도 말이 되는 세계 모델을 배워야 한다는 게 자연스러움
이들이 비슷하게 유용해지려면 앞으로 몇 자릿수 규모로 더 발전해야 할지 궁금함
이런 기능을 허용한다면, 아마 프리미엄 이상 모델로, 곧 포르노 산업 전체를 무너뜨릴 수도 있음. 웹사이트가 아니라 종종 착취당하는 성노동자들 쪽임
누구나 자신의 취향을 묘사하면, 이런 영상을 만들기 위해 실제 인간이 고통받을 필요 없이 즉시 시각화할 수 있음. 특히 미국에서는 말하기 꺼리는 민감한 주제라는 걸 알지만, 시장이 거대하고 잘만 하면 인류에 도움이 될 수도 있음
- 포르노 배우 한 명당 보상 회로가 망가진 포르노 소비자는 수천 명이고, 배우 중 학대받는 사람은 일부이며 다수는 꽤 좋은 보상을 받음
  끝없는 중독성 자극을 만들어내는 것은 인류에 도움이 되는 일과는 가장 거리가 멂
  이 영역에서 좋은 일을 하고 싶다면 소비를 제한하는 방법을 연구하는 편이 나음

답변달기

세계 시뮬레이터로서의 비디오 생성 모델

Sora가 다루는 문제와 보고 범위

시각 데이터를 패치로 통합하는 방식

비디오 압축과 시공간 잠재 패치

비디오 생성을 위한 확산 Transformer 확장

원래 크기로 학습하는 이점

샘플링 유연성

프레이밍과 구도 개선

언어 이해와 캡션 처리

이미지와 비디오를 입력으로 쓰는 생성·편집

DALL·E 이미지 애니메이션화

생성 비디오 확장

비디오-투-비디오 편집과 연결

이미지 생성 능력

규모 확장에서 나타난 시뮬레이션 능력

3D 일관성

장기 일관성과 객체 지속성

세계와의 상호작용

디지털 세계 시뮬레이션

현재 한계와 결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들