🔑 Key Highlights
• 더 현실적인 물리 시뮬레이션
• 이전 모델이 물체를 “순간이동”시키며 성공을 연출했다면, Sora 2는 실제 물리적 실패와 반동까지 구현.
• 농구공이 링을 맞고 튀어나오는 등, 물리 법칙에 가까운 결과 제공.
• 고도화된 컨트롤 & 일관성
• 복잡한 지시(여러 샷, 장면 전환, 상태 유지)를 정확히 따를 수 있음.
• 장면 간 캐릭터/사물의 세계 상태(world state)를 유지.
• 스타일 다양성
• 리얼리즘, 시네마틱, 애니메이션 등 고품질 영상 생성 가능.
• 배경음, 음향효과, 대사까지 동기화된 오디오 생성 지원.
• “Upload yourself” 기능 (Cameos)
• 사용자가 짧은 영상·음성을 업로드 → 모델이 해당 사람을 어떤 장면에도 삽입 가능.
• 외모+목소리 모두 반영.
• 제어권은 본인에게 있으며, 접근 권한/삭제 가능.
• 소셜 앱 ‘Sora’ 출시 (iOS)
• 생성/리믹스/공유 기능을 중심으로 한 새로운 소셜 네트워크.
• 초대 기반 시작, 미국·캐나다에서 먼저 론칭.
• 기본 무료 + 일정 사용량 제한, Pro 모델/추가 생성은 유료 예정.
• 안전과 책임 있는 출시
• 피드 알고리즘: 시간 소모 최적화 대신 “창작 유도”에 초점.
• 청소년 보호: 피드 노출량 제한, 부모 제어 기능 제공.
• 저작권/동의: Cameo 사용자는 접근/삭제 권리 보장.
• 인간 모더레이션 강화로 괴롭힘/남용 대응.
• 기술적 맥락
• Sora 1이 “GPT-1 for video”였다면, Sora 2는 “GPT-3.5 moment”.
• 더 큰 비디오 데이터 사전학습(pre-training)과 사후학습(post-training) → 세계 시뮬레이션 모델에 한 걸음 더.
• 향후 계획
• sora.com에서도 접속 가능.
• Pro 유저용 Sora 2 Pro 제공 예정.
• API 공개 계획 있음.
• 기존 Sora 1 Turbo도 계속 사용 가능.

📝 TL;DR
• Sora 2 = 물리적으로 더 정교한 비디오·오디오 생성 모델
• 사람/사물 cameo 삽입 가능 → 소셜 앱 Sora에서 경험
• 소셜+창작 중심 플랫폼 → 시간 소비보단 콘텐츠 생산 지향
• 초기 론칭: 미국·캐나다 iOS → 웹/Pro/API 확장 예정

이런 영상 제작이 많아지면 어쩌면 사람들을 쇼츠 중독에서 멀어지게 할지도 모르겠네요. 슈퍼카를 타는 쇼츠를 내 얼굴로도 만들 수 있다면, 슈퍼카 쇼츠가 얼마나 가치있어질지?

Hacker News 의견
  • OpenAI가 Sora를 소셜 네트워크, 즉 TikTok의 AI 버전(AITok)으로 만들려는 시도로 보임
    웹앱은 피드, 게시글의 좋아요∙댓글, 사용자 프로필 등 소비 중심 구조에 초점이 맞춰져 있음
    영상 생성은 부가적인 요소로, 생성된 영상은 매우 짧고 설정도 단순(가로/세로만 선택 가능)함
    길거나 스토리 중심의 영상, 고급 편집 기능 등은 언급이나 시도조차 없고 Google Flow 등 다른 플랫폼과 비교해 기능적 제한이 큼
    물리 정확성 테스트 영상들을 첨부했으나 Veo도 해당 프롬프트에선 제대로 동작하지 못함
    추가로, 꽤 인상적인 영상과 조악한 영상이 모두 올라오고 있어 흥미로움
    Sora physics 예시1
    Sora physics 예시2
    Veo 예시1
    Veo 예시2

    • 개인적으로 혁신적인 기술과 AI를 좋아하지만, "TikTok but AI"가 사회적으로 바람직한 시도인지 잘 모르겠음
      이걸 통해 얻을 수 있는 뚜렷한 긍정적 효과가 있다면 궁금함

    • 비디오 생성의 전력 효율이 극적으로 개선되지 않는 한, 또는 에너지 비용이 거의 0에 가까워지지 않는 한
      TikTok 수준의 대규모 실시간 영상 소비 서비스가 수익성 측면에서 지속될 가능성은 낮다고 생각함
      현재로선 실제 사람이 직접 올리는 영상이 훨씬 저전력∙저비용임

    • OpenAI가 Sora를 소셜 네트워크로 키우려는 전략은 사실 Midjourney가 이미지에 이미 적용해오던 방식임
      Midjourney Explore - Videos
      많은 사람들이 Midjourney의 독특한 이미지 스타일을 즐기는데, 평점과 상호작용으로 모델이 학습하는 구조임
      이미지 생성 시에는 '미학' 수준도 다루기 쉬움

    • Meta도 최근에 비슷한 시도를 함
      Meta, Vibes AI Video 발표

    • 소비 중심의 피드 기능 강화는 분명한 방향 중 하나임
      또 다른 이유로는, 여러 사용자가 똑같이 빈 프롬프트 창에 자원을 들여서 유사한 결과물을 쏟아내는 것보다
      우선 좋은 예시를 보여주고, 관련된 토론을 통해 더 빠르게 퀄리티 높은 결과를 얻는 방식이 더 효율적임

  • 이런 기술들을 볼 때마다 쥬라기 공원의 Jeff Goldblum 대사가 떠오름
    우리 상사가 이런 툴로 만든 완성도 떨어지는 AI 영상을 보여주며 "이게 미래다"라고 외치는데
    한 번쯤 "이걸 과연 누가 원하고, 누가 볼까?"라는 근본적인 질문은 안하는 듯함
    아직 AI 콘텐츠는 딱 보면 바로 티가 나는 한계를 여전히 가짐

    • Meta의 Vibes 앱을 보고도 비슷한 생각이 들었음
      누가 AI로만 만들어진 영상 스트림을 즐겨 볼까? Meta 입장에서는 사람에게 돈 주는 것보다 싸게 콘텐츠 확보할 수 있으니 좋아하지만,
      실제로는 질 낮은 '슬롭(slop)'에 불과함
  • 저작권 문제를 너무 느슨하게 다룸
    Sora는 기본적으로 사용자의 IP를 AI 영상에 활용하도록 되어 있고, 사용자는 명시적으로 거부해야만 제외됨
    관련 기사
    더불어, 이 정도로 큰 파급력을 가진 프로젝트를 진행하는 사람들이 실제 삶의 경험은 적고
    반짝거리는 신기한 기술에만 집착하며 영향력과 결과에는 관심이 없어 보임
    (Meta의 Vibes도 같은 맥락임)

    • 해당 이슈가 기사에서 로봇이 작성했다고 밝히고 있어, 보다 정확한 출처가 있는지 궁금함

    • Grok에서는 1년 넘게 저작권 있는 캐릭터가 자유롭게 쓰이고 있으나 아직 소송이 없었음

  • 이런 기술이 앞으로 브랜드에게 라이선스를 제공해
    훨씬 더 맞춤화된 광고 영상을 제작할 수 있는 가능성이 떠오름
    예를 들어, 실제 옷을 주문하기 전에 내가 그 옷을 입고 있는 영상을 볼 수 있다면 굉장히 신기한 경험임
    만약 실시간 생성까지 된다면 백화점의 거울 앞을 지날 때마다 내 모습이 여러 의상으로 자동으로 바뀌는 상상도 가능함
    굉장히 신나는 시대임

    • 이런 상황까지 오면 물리적으로 옷을 살 필요도 없어질 것 같음
      인플루언서들은 자신의 모의 영상을 SNS에 올리는 걸로 만족하고, 실제 방문 없이 체험만으로 홍보 가능함
      관련 밈 트윗
      더 나아가, 진짜 외출을 하지 않고도 친구들과 파티 중인 faked 영상까지 생성해 올릴 수 있으니
      결국은 집에서 아이스크림 먹으면서도 SNS 속에선 활발한 삶을 연출할 수 있음

    • 이미 Minority Report에서 이와 유사한 장면을 본 듯함
      영화 속에서 Tom Cruise의 이름이 광고에 직접 불리는 연출이 인상적이었음
      Minority Report - 영화 위키

    • 'Virtual Try On(VTO)'이라고 불리며 이미 정적인 이미지로는 많이 활용되고 있음
      영상 VTO도 곧 등장할 것으로 자연스럽게 예상됨

    • 결국 이런 비디오 모델의 가장 흔한 쓰임새는 맞춤형 시각화, 예를 들어 제품 가상 착용 등에 집중될 가능성이 큼
      사람들은 결국 AI보다는 사람과 공감대를 형성하는 걸 선호하기 때문임
      Sora나 VEO가 영화나 TV 콘텐츠 제작에도 큰 변화를 가져올 수 있음

    • AR 가구 배치(가상으로 내 집에 가구 위치를 미리 놓아보는 기능)도 예전에 혁신이라 불렸지만
      실제론 거의 아무도 사용하지 않음

  • ChatGPT 이미지 생성이 첫 주에 1억 명 넘는 사용자를 끌어모았던 주된 이유는
    사람들이 직접 친구, 가족, 반려동물 사진을 AI로 만드는 걸 굉장히 즐기기 때문임
    '카메오 기능'도 이런 바이럴한 매력을 다시 한 번 노린 시도로 예상함

    • 다행히 반려동물은 AI 영상에 활용하는 데 별도의 동의가 필요 없어서
      PETA가 반대하지 않는 한 문제 없을 것 같음
  • 가장 흥미로운 점은
    사용자가 사람이나 제품의 비디오 클립을 프롬프트에 포함시키면
    AI가 그 메타데이터를 바탕으로 현실감 있는 영상을 만들어주는 기능임
    기술적으로는 고도화된 데이터 세트로 미리 학습한 효과로 보이며
    사용자 입장에선 정말 쓸 만한 상업적 기능이 될 수 있음
    하지만, 이런 데이터 기반 혁신은 Google도 YouTube 덕분에 곧 따라잡을 수 있으며
    이미 내부적으로 유사한 기술을 운용하고 있을 가능성이 큼

    • 제품 영상에 AI가 삽입되는 건 매우 원하지 않음
      나의 소중한 돈을 투자하는 입장에서, 실존하지 않는 허상이나 조작된 제품 이미지는 사기에 가까움
      실제 제품이 아닌 환상에 근거한 리뷰∙광고는 윤리적으로 문제라고 생각함
  • 이 모든 구축이 사실상 끝없는 AI 맞춤 콘텐츠 스트림으로 가는 진전임
    개인의 도파민 분비를 극대화하기 위해 최적화된 구조임

    • 이는 마치 Skinner box(쾌락을 위해 반복적인 행동을 유도하는 장치)와 같은 Torment Nexus라는 느낌임

    • 당장은 이런 구조가 에너지나 자원 면에서 유지 가능한 상태는 아님

  • 예시 프롬프트 중 "파란 불로 만든 검을 든 소년과 악령이 격돌하는 강렬한 애니메이션 배틀"은
    일본 만화 Blue Exorcist와 거의 동일한 컨셉임
    Blue Exorcist (위키)

    • 아예 예시 프롬프트에 "'스튜디오 지브리 애니메이션 스타일로, 소년과 강아지가 푸른 산을 오르고 멀리 마을이 보인다'"가 있음

    • 용 캐릭터는 How to Train Your Dragon에서 거의 그대로 따온 느낌임
      혹시 저작권자들과 계약이 있는지, 아니면 소송을 미끼로 언론 홍보효과를 노리는 건지 궁금함

  • 엔지니어링 측면에서는 정말 인상적인 결과임
    영상의 퀄리티가 충분히 높아서 집중도를 유발할 만큼 좋아졌고, 언캐니 밸리(이질감) 현상도 느껴짐
    OpenAI가 이런 신기술을 점진적으로 대중에 적응시키는 점이 훌륭함
    이 버전은 제약이 많지만, 한두 세대만 지나면 기술적 임계점을 돌파할 것 같은 흐름임
    예를 들어 LLM 시장에서는 Gemini 2.5 Pro가 진정한 임계점이었는데, Sora도 곧 그런 터닝 포인트를 맞이할 것 같음
    창작자 관점에선, 여러 자산(배경, 사물 등)을 먼저 세트로 만든 뒤 여러 장면을 자연스럽게 이어주는 기능이 있으면 이상적임

  • 연결성(continuity)이 놀랍도록 높아진 영상임
    다만 몇 가지 오류가 여전히 눈에 띔

    1. 0:23 - 빨간 외투의 폴로 선수가 장갑을 착용하지만 이후 장면에서 장갑을 끼지 않음
    2. 1:05 - 용이 절벽을 타고 날아가다 근접샷에선 방향이 반대로 됨, 등장인물 복장도 바뀜
    3. 1:45 - 오리 레이스 장면에서 오리가 제대로 코너를 돌지 않고 벽을 향해 감
      더 복잡한 콘티 문제를 어떻게 해결할지 궁금함
    • 영상이 엄청난 컷 편집과 빠른 카메라 전환으로 연결성 문제를 숨겼음
      눈에 띄게 컷마다 오리풀, 스노우모빌 등 모든 요소가 계속 바뀜
      결국 얼굴 부분만 일관적으로 보임
      전체적으로 AI 영상의 전형적 문제가 여전하며, 단일 환경에서 5초 이상 지속하는 장면이 거의 없음

    • 오리 경주 장면도 Sam이 등장하면 이미 전혀 다른 풀이 등장함

    • 이 데모조차도 오류가 많다는 것은
      일반 유저들의 결과물은 그보다 훨씬 더 부족할 것임을 암시함

    • 연못에서 보스태프(봉술)을 사용하는 장면에서 손목 각도가 비정상적으로 꺾여 있음

    • 연못 봉술 데모에선 나무 막대가 갑자기 활 형태로 변하는 등, 명백히 'AI 티 나는' 장면이 쉽게 감지됨