OpenAI Sora: 텍스트에서 비디오를 생성하는 AI 모델 공개

(openai.com)

12P by GN⁺ 2024-02-16 | ★ favorite | 댓글 6개

Sora는 텍스트 지시에 따라 현실적이고 상상력이 풍부한 장면을 만들어내는 AI 모델
사용자의 프롬프트에 충실하면서 시각적 품질을 유지하고 최대 1분 길이의 비디오 생성 가능
상세한 시나리오를 제공하는 다양한 프롬프트에 따라 생성된 비디오 예시들 소개
- 이 페이지의 모든 비디오는 Sora가 직접 제작한 것으로 전혀 수정되지 않은 것
현재 Sora는 위험성 평가를 위해 '레드 팀'에게 제공되고 있으며, 시각 예술가, 디자이너, 영화 제작자들로부터 피드백을 받고 있음
OpenAI는 연구 진행 상황을 공유하여 외부인들로부터 피드백을 받고 AI 기능의 미래를 대중에게 보여주고자 함

Sora의 능력

복잡한 장면과 다수의 캐릭터, 특정한 움직임, 주제와 배경의 정확한 디테일을 생성할 수 있음
사용자의 프롬프트뿐만 아니라 물리적 세계에서의 존재 방식도 이해함

Sora의 안전성

OpenAI 제품에 Sora를 통합하기 전에 여러 안전 조치를 취할 예정임
오해의 소지가 있는 콘텐츠를 탐지하는 도구 개발, 비디오가 Sora에 의해 생성되었는지 판별할 수 있는 분류기 개발 등이 포함됨

연구 기술

Sora는 노이즈가 가득한 비디오에서 시작하여 점차 노이즈를 제거해가며 비디오를 생성하는 확산 모델임
GPT 모델과 유사한 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 제공함

GN⁺의 의견

Sora는 텍스트 기반의 지시를 통해 비디오를 생성하는 혁신적인 AI 기술로, 창의적인 전문가들에게 새로운 가능성을 제공함
안전 조치와 피드백을 통해 실제 세계에서의 사용을 학습하고, AI 시스템을 점진적으로 안전하게 만드는 데 중요한 역할을 함
이 기술은 미래의 AGI(인공 일반 지능) 달성을 위한 중요한 이정표가 될 것으로 보임

▲

draupnir 2024-02-17 [-]

진짜 감탄밖에 안 나오네요.
7조 받겠는데...?

답변달기

▲

laeyoung 2024-02-16 [-]

실제 비디오인지 AI가 만든 비디오인지 대충보면 모르겠군요

답변달기

▲

edunga1 2024-02-16 [-]

와... 빨리 써보고 싶어요.
확산 모델이란 것은 stable diffusion과 같은 방식이라는 거겠죠?

답변달기

▲

dothx 2024-02-16 [-]

stock photo 나 stock video 시장이 어렵겠네요..

답변달기

▲

xguru 2024-02-16 [-]

생성 품질이 엄청나네요. 이렇게 빨리 발전하나요

답변달기

▲

GN⁺ 2024-02-16 [-]

Hacker News 의견

한 사용자는 기술적 성과에도 불구하고 미래에 대한 우려를 표현함. 사회 안전망이 부족하고, 보편적 기본소득(UBI)에 가까워지지 않고 있다고 생각함. 또한 한 회사가 너무 많은 권력을 가지는 것에 대한 두려움을 나타냄.
다른 사용자는 컴퓨터 생성 모션의 질에 깊은 인상을 받음. 특히 모션 캡처와 달리, 컴퓨터 애니메이션에서 실제와 같은 움직임을 구현하는 것이 어렵지만, 이번에는 매우 현실적으로 느껴진다고 함.
또 다른 사용자는 이미지/비디오 측면을 넘어서 물리학과 객체 간의 관계에 대한 이해를 보여주는 모델의 중요성을 강조함. 실패한 사례로 언급된 예시들이 실제로는 모델의 세계에 대한 강력한 이해를 보여주는 중요한 사례라고 평가함.
할리우드 리포터에 따르면, 업계 많은 사람들이 AI 도구의 발전으로 인해 직업에 대한 두려움을 느끼고 있음. 일부는 업계를 떠날 것을 고려하고 있으며, AI 도구가 특히 광고 제작 분야에서 일자리에 영향을 미칠 것으로 예상됨.
한 사용자는 현재 공개된 모델들을 훨씬 뛰어넘는 성과에 대해 언급함.
또 다른 사용자는 도쿄 비디오에서 발견된 작은 오류에 주목하며, 생성된 콘텐츠에 항상 이런 오류가 존재할지, 그리고 어린 시절부터 생성된 콘텐츠에 노출된 아이들이 이러한 오류에 무감각해질지에 대한 의문을 제기함.
한 사용자는 Gemini 1.5 모델이 구식이 되었으며, Google이 블로그를 통해 발표한 것에 놀라움을 표현함.
한 프로그래머는 AI의 발전으로 인한 불길한 예감을 표현하며, 이는 단순히 일자리를 잃을 수 있다는 두려움을 넘어서는 것이라고 함. 비디오의 품질에 대해서는 믿을 수 없을 정도로 인상적이라고 평가함.
한 사용자는 비디오 생성 방식에 대한 기술적인 질문을 던지며, 모델이 장면의 기하학적 구조와 카메라를 분리하는 방식에 대해 궁금해함.
마지막 사용자는 기술의 발전이 문화적 변화를 가져올 것이라고 생각하며, 극장에서 인간의 연극, 강연, 콘서트를 더 많이 보고 싶어질 것이라고 함. Vinyl의 인기가 다시 높아진 것처럼, 극장이 다시 인기를 끌 수 있다고 예상함.

답변달기