Sora 2 출시: OpenAI의 차세대 비디오·오디오 생성 모델 (Sora 2 is here)

(openai.com)

10P by clumsypupil 2달전 | ★ favorite | 댓글 2개

🔑 Key Highlights
• 더 현실적인 물리 시뮬레이션
• 이전 모델이 물체를 “순간이동”시키며 성공을 연출했다면, Sora 2는 실제 물리적 실패와 반동까지 구현.
• 농구공이 링을 맞고 튀어나오는 등, 물리 법칙에 가까운 결과 제공.
• 고도화된 컨트롤 & 일관성
• 복잡한 지시(여러 샷, 장면 전환, 상태 유지)를 정확히 따를 수 있음.
• 장면 간 캐릭터/사물의 세계 상태(world state)를 유지.
• 스타일 다양성
• 리얼리즘, 시네마틱, 애니메이션 등 고품질 영상 생성 가능.
• 배경음, 음향효과, 대사까지 동기화된 오디오 생성 지원.
• “Upload yourself” 기능 (Cameos)
• 사용자가 짧은 영상·음성을 업로드 → 모델이 해당 사람을 어떤 장면에도 삽입 가능.
• 외모+목소리 모두 반영.
• 제어권은 본인에게 있으며, 접근 권한/삭제 가능.
• 소셜 앱 ‘Sora’ 출시 (iOS)
• 생성/리믹스/공유 기능을 중심으로 한 새로운 소셜 네트워크.
• 초대 기반 시작, 미국·캐나다에서 먼저 론칭.
• 기본 무료 + 일정 사용량 제한, Pro 모델/추가 생성은 유료 예정.
• 안전과 책임 있는 출시
• 피드 알고리즘: 시간 소모 최적화 대신 “창작 유도”에 초점.
• 청소년 보호: 피드 노출량 제한, 부모 제어 기능 제공.
• 저작권/동의: Cameo 사용자는 접근/삭제 권리 보장.
• 인간 모더레이션 강화로 괴롭힘/남용 대응.
• 기술적 맥락
• Sora 1이 “GPT-1 for video”였다면, Sora 2는 “GPT-3.5 moment”.
• 더 큰 비디오 데이터 사전학습(pre-training)과 사후학습(post-training) → 세계 시뮬레이션 모델에 한 걸음 더.
• 향후 계획
• sora.com에서도 접속 가능.
• Pro 유저용 Sora 2 Pro 제공 예정.
• API 공개 계획 있음.
• 기존 Sora 1 Turbo도 계속 사용 가능.

⸻

📝 TL;DR
• Sora 2 = 물리적으로 더 정교한 비디오·오디오 생성 모델
• 사람/사물 cameo 삽입 가능 → 소셜 앱 Sora에서 경험
• 소셜+창작 중심 플랫폼 → 시간 소비보단 콘텐츠 생산 지향
• 초기 론칭: 미국·캐나다 iOS → 웹/Pro/API 확장 예정

▲

colus001 2달전 [-]

이런 영상 제작이 많아지면 어쩌면 사람들을 쇼츠 중독에서 멀어지게 할지도 모르겠네요. 슈퍼카를 타는 쇼츠를 내 얼굴로도 만들 수 있다면, 슈퍼카 쇼츠가 얼마나 가치있어질지?

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견

OpenAI가 Sora를 소셜 네트워크, 즉 TikTok의 AI 버전(AITok)으로 만들려는 시도로 보임
웹앱은 피드, 게시글의 좋아요∙댓글, 사용자 프로필 등 소비 중심 구조에 초점이 맞춰져 있음
영상 생성은 부가적인 요소로, 생성된 영상은 매우 짧고 설정도 단순(가로/세로만 선택 가능)함
길거나 스토리 중심의 영상, 고급 편집 기능 등은 언급이나 시도조차 없고 Google Flow 등 다른 플랫폼과 비교해 기능적 제한이 큼
물리 정확성 테스트 영상들을 첨부했으나 Veo도 해당 프롬프트에선 제대로 동작하지 못함
추가로, 꽤 인상적인 영상과 조악한 영상이 모두 올라오고 있어 흥미로움
Sora physics 예시1
Sora physics 예시2
Veo 예시1
Veo 예시2
- 개인적으로 혁신적인 기술과 AI를 좋아하지만, "TikTok but AI"가 사회적으로 바람직한 시도인지 잘 모르겠음
  이걸 통해 얻을 수 있는 뚜렷한 긍정적 효과가 있다면 궁금함
- 비디오 생성의 전력 효율이 극적으로 개선되지 않는 한, 또는 에너지 비용이 거의 0에 가까워지지 않는 한
  TikTok 수준의 대규모 실시간 영상 소비 서비스가 수익성 측면에서 지속될 가능성은 낮다고 생각함
  현재로선 실제 사람이 직접 올리는 영상이 훨씬 저전력∙저비용임
- OpenAI가 Sora를 소셜 네트워크로 키우려는 전략은 사실 Midjourney가 이미지에 이미 적용해오던 방식임
  Midjourney Explore - Videos
  많은 사람들이 Midjourney의 독특한 이미지 스타일을 즐기는데, 평점과 상호작용으로 모델이 학습하는 구조임
  이미지 생성 시에는 '미학' 수준도 다루기 쉬움
- Meta도 최근에 비슷한 시도를 함
  Meta, Vibes AI Video 발표
- 소비 중심의 피드 기능 강화는 분명한 방향 중 하나임
  또 다른 이유로는, 여러 사용자가 똑같이 빈 프롬프트 창에 자원을 들여서 유사한 결과물을 쏟아내는 것보다
  우선 좋은 예시를 보여주고, 관련된 토론을 통해 더 빠르게 퀄리티 높은 결과를 얻는 방식이 더 효율적임
이런 기술들을 볼 때마다 쥬라기 공원의 Jeff Goldblum 대사가 떠오름
우리 상사가 이런 툴로 만든 완성도 떨어지는 AI 영상을 보여주며 "이게 미래다"라고 외치는데
한 번쯤 "이걸 과연 누가 원하고, 누가 볼까?"라는 근본적인 질문은 안하는 듯함
아직 AI 콘텐츠는 딱 보면 바로 티가 나는 한계를 여전히 가짐
- Meta의 Vibes 앱을 보고도 비슷한 생각이 들었음
  누가 AI로만 만들어진 영상 스트림을 즐겨 볼까? Meta 입장에서는 사람에게 돈 주는 것보다 싸게 콘텐츠 확보할 수 있으니 좋아하지만,
  실제로는 질 낮은 '슬롭(slop)'에 불과함
저작권 문제를 너무 느슨하게 다룸
Sora는 기본적으로 사용자의 IP를 AI 영상에 활용하도록 되어 있고, 사용자는 명시적으로 거부해야만 제외됨
관련 기사
더불어, 이 정도로 큰 파급력을 가진 프로젝트를 진행하는 사람들이 실제 삶의 경험은 적고
반짝거리는 신기한 기술에만 집착하며 영향력과 결과에는 관심이 없어 보임
(Meta의 Vibes도 같은 맥락임)
- 해당 이슈가 기사에서 로봇이 작성했다고 밝히고 있어, 보다 정확한 출처가 있는지 궁금함
- Grok에서는 1년 넘게 저작권 있는 캐릭터가 자유롭게 쓰이고 있으나 아직 소송이 없었음
이런 기술이 앞으로 브랜드에게 라이선스를 제공해
훨씬 더 맞춤화된 광고 영상을 제작할 수 있는 가능성이 떠오름
예를 들어, 실제 옷을 주문하기 전에 내가 그 옷을 입고 있는 영상을 볼 수 있다면 굉장히 신기한 경험임
만약 실시간 생성까지 된다면 백화점의 거울 앞을 지날 때마다 내 모습이 여러 의상으로 자동으로 바뀌는 상상도 가능함
굉장히 신나는 시대임
- 이런 상황까지 오면 물리적으로 옷을 살 필요도 없어질 것 같음
  인플루언서들은 자신의 모의 영상을 SNS에 올리는 걸로 만족하고, 실제 방문 없이 체험만으로 홍보 가능함
  관련 밈 트윗
  더 나아가, 진짜 외출을 하지 않고도 친구들과 파티 중인 faked 영상까지 생성해 올릴 수 있으니
  결국은 집에서 아이스크림 먹으면서도 SNS 속에선 활발한 삶을 연출할 수 있음
- 이미 Minority Report에서 이와 유사한 장면을 본 듯함
  영화 속에서 Tom Cruise의 이름이 광고에 직접 불리는 연출이 인상적이었음
  Minority Report - 영화 위키
- 'Virtual Try On(VTO)'이라고 불리며 이미 정적인 이미지로는 많이 활용되고 있음
  영상 VTO도 곧 등장할 것으로 자연스럽게 예상됨
- 결국 이런 비디오 모델의 가장 흔한 쓰임새는 맞춤형 시각화, 예를 들어 제품 가상 착용 등에 집중될 가능성이 큼
  사람들은 결국 AI보다는 사람과 공감대를 형성하는 걸 선호하기 때문임
  Sora나 VEO가 영화나 TV 콘텐츠 제작에도 큰 변화를 가져올 수 있음
- AR 가구 배치(가상으로 내 집에 가구 위치를 미리 놓아보는 기능)도 예전에 혁신이라 불렸지만
  실제론 거의 아무도 사용하지 않음
ChatGPT 이미지 생성이 첫 주에 1억 명 넘는 사용자를 끌어모았던 주된 이유는
사람들이 직접 친구, 가족, 반려동물 사진을 AI로 만드는 걸 굉장히 즐기기 때문임
'카메오 기능'도 이런 바이럴한 매력을 다시 한 번 노린 시도로 예상함
- 다행히 반려동물은 AI 영상에 활용하는 데 별도의 동의가 필요 없어서
  PETA가 반대하지 않는 한 문제 없을 것 같음
가장 흥미로운 점은
사용자가 사람이나 제품의 비디오 클립을 프롬프트에 포함시키면
AI가 그 메타데이터를 바탕으로 현실감 있는 영상을 만들어주는 기능임
기술적으로는 고도화된 데이터 세트로 미리 학습한 효과로 보이며
사용자 입장에선 정말 쓸 만한 상업적 기능이 될 수 있음
하지만, 이런 데이터 기반 혁신은 Google도 YouTube 덕분에 곧 따라잡을 수 있으며
이미 내부적으로 유사한 기술을 운용하고 있을 가능성이 큼
- 제품 영상에 AI가 삽입되는 건 매우 원하지 않음
  나의 소중한 돈을 투자하는 입장에서, 실존하지 않는 허상이나 조작된 제품 이미지는 사기에 가까움
  실제 제품이 아닌 환상에 근거한 리뷰∙광고는 윤리적으로 문제라고 생각함
이 모든 구축이 사실상 끝없는 AI 맞춤 콘텐츠 스트림으로 가는 진전임
개인의 도파민 분비를 극대화하기 위해 최적화된 구조임
- 이는 마치 Skinner box(쾌락을 위해 반복적인 행동을 유도하는 장치)와 같은 Torment Nexus라는 느낌임
- 당장은 이런 구조가 에너지나 자원 면에서 유지 가능한 상태는 아님
예시 프롬프트 중 "파란 불로 만든 검을 든 소년과 악령이 격돌하는 강렬한 애니메이션 배틀"은
일본 만화 Blue Exorcist와 거의 동일한 컨셉임
Blue Exorcist (위키)
- 아예 예시 프롬프트에 "'스튜디오 지브리 애니메이션 스타일로, 소년과 강아지가 푸른 산을 오르고 멀리 마을이 보인다'"가 있음
- 용 캐릭터는 How to Train Your Dragon에서 거의 그대로 따온 느낌임
  혹시 저작권자들과 계약이 있는지, 아니면 소송을 미끼로 언론 홍보효과를 노리는 건지 궁금함
엔지니어링 측면에서는 정말 인상적인 결과임
영상의 퀄리티가 충분히 높아서 집중도를 유발할 만큼 좋아졌고, 언캐니 밸리(이질감) 현상도 느껴짐
OpenAI가 이런 신기술을 점진적으로 대중에 적응시키는 점이 훌륭함
이 버전은 제약이 많지만, 한두 세대만 지나면 기술적 임계점을 돌파할 것 같은 흐름임
예를 들어 LLM 시장에서는 Gemini 2.5 Pro가 진정한 임계점이었는데, Sora도 곧 그런 터닝 포인트를 맞이할 것 같음
창작자 관점에선, 여러 자산(배경, 사물 등)을 먼저 세트로 만든 뒤 여러 장면을 자연스럽게 이어주는 기능이 있으면 이상적임
연결성(continuity)이 놀랍도록 높아진 영상임
다만 몇 가지 오류가 여전히 눈에 띔
1. 0:23 - 빨간 외투의 폴로 선수가 장갑을 착용하지만 이후 장면에서 장갑을 끼지 않음
2. 1:05 - 용이 절벽을 타고 날아가다 근접샷에선 방향이 반대로 됨, 등장인물 복장도 바뀜
3. 1:45 - 오리 레이스 장면에서 오리가 제대로 코너를 돌지 않고 벽을 향해 감
  더 복잡한 콘티 문제를 어떻게 해결할지 궁금함
- 영상이 엄청난 컷 편집과 빠른 카메라 전환으로 연결성 문제를 숨겼음
  눈에 띄게 컷마다 오리풀, 스노우모빌 등 모든 요소가 계속 바뀜
  결국 얼굴 부분만 일관적으로 보임
  전체적으로 AI 영상의 전형적 문제가 여전하며, 단일 환경에서 5초 이상 지속하는 장면이 거의 없음
- 오리 경주 장면도 Sam이 등장하면 이미 전혀 다른 풀이 등장함
- 이 데모조차도 오류가 많다는 것은
  일반 유저들의 결과물은 그보다 훨씬 더 부족할 것임을 암시함
- 연못에서 보스태프(봉술)을 사용하는 장면에서 손목 각도가 비정상적으로 꺾여 있음
- 연못 봉술 데모에선 나무 막대가 갑자기 활 형태로 변하는 등, 명백히 'AI 티 나는' 장면이 쉽게 감지됨

답변달기