5P by neo 16시간전 | ★ favorite | 댓글 2개
  • ByteDance Seed 팀이 공개한 차세대 멀티모달 영상 생성 모델로, 텍스트·이미지·오디오·비디오 입력을 통합 지원
  • 물리 정확도와 현실감이 강화되어 복잡한 인물 상호작용과 운동 장면에서도 높은 안정성과 일관성 확보
  • 최대 9장 이미지·3개 영상·3개 오디오를 동시에 입력해 구성·운동·특효·음향을 반영하며, 영상 편집과 연장 기능으로 정밀한 제어 가능
  • 15초 고품질 다중 카메라 출력스테레오 오디오를 지원해 영화·광고·게임 등 산업용 콘텐츠 제작 효율을 크게 향상
  • 종합 평가에서 업계 최고 수준의 생성 품질과 지시문 준수 성능을 기록했으며, 향후 세밀한 안정성과 다중 인물 일관성 개선 예정

Seedance 2.0 개요

  • 2026년 2월 12일 공개된 Seedance 2.0은 ByteDance의 통합 멀티모달 음·영상 생성 모델
    • 텍스트, 이미지, 오디오, 비디오 네 가지 입력을 동시에 처리
    • 기존 1.5 버전 대비 생성 품질, 물리 정확도, 현실감, 제어성 모두 향상
  • 산업용 영상 제작을 목표로 하며, 영상 길이 15초, 다중 카메라, 스테레오 오디오를 지원
  • 현재 즉몽AI, Doubao(豆包) 등 플랫폼에서 체험 가능

주요 기능 및 기술 특징

  • 복잡한 운동·상호작용 안정성 강화
    • 다중 인물의 동작과 물리 규칙을 자연스럽게 재현
    • 예시로, 두 사람의 피겨스케이팅 장면에서 점프·회전·착지 동작을 현실적으로 구현
  • 멀티모달 입력 확장
    • 최대 9장 이미지, 3개 영상, 3개 오디오, 자연어 명령을 혼합 입력
    • 입력 자료의 구도·운동·카메라워크·특효·음향 요소를 반영해 생성
  • 정밀한 제어 및 편집 기능
    • 지시문 일관성 향상, 복잡한 스크립트도 정확히 재현
    • 영상 연장·부분 편집 기능으로 장면·인물·동작 수정 가능
  • 고품질 오디오 생성
    • 양채널 스테레오로 배경음·효과음·해설을 동시 생성
    • ASMR·무협 장면 등에서 세밀한 음향 질감과 시각 동기화 구현
  • 산업 전반 적용성
    • 광고, 영화, 게임, 해설 영상 등 다양한 제작 환경에 대응
    • AI 기반으로 특수효과·촬영 비용 절감 및 제작 기간 단축

성능 평가

  • 영상 생성 품질
    • 운동 안정성, 지시문 준수, 미적 완성도에서 업계 선도 수준
    • 복잡한 동작·표정·카메라 연출을 정밀하게 표현
    • 일부 세부 안정성과 동적 생동감은 개선 필요
  • 오디오 생성 품질
    • 스테레오 사운드의 층위감과 장면 맞춤 음향 향상
    • 대사·음악·효과음의 시각적 일치도 강화
    • 다중 인물의 입 모양 동기화와 음성 왜곡은 일부 한계 존재
  • 멀티모달 참조 생성
    • 다양한 입력 조합을 이해하고 정확히 반영
    • 편집·연장 작업에서 높은 일관성과 사실성 확보
    • 다중 인물 일관성·텍스트 재현 정밀도는 추가 개선 필요

종합 평가 및 향후 방향

  • Seedance 2.0은 “소리-화면 동기 생성” 에서 “통합 멀티모달 생성” 으로 발전함
  • 물리 법칙 준수·장기 일관성 문제를 해결하며, 창작자의 자유도 확대
  • 향후 세밀한 품질 안정화인간 피드백 기반 정렬을 통해
    더 효율적이고 창의적인 AI 영상 제작 도구로 발전 예정

올려주신거 보고 뽐뿌 와서 가입까지 해봤는데,

실제로는 무료로 써볼 수가 없네요.

해당 모델을 잠시 숨겨둔건지 무료 3 크레딧으로는 할 수 있는게 아무것도 없습니다..... 흑흑

요 근래 이 seedance 2.0 영상이라고 엄청 돌아다니던 게 많은데, 이제 아예 정식으로 공개가 되었습니다.
해커뉴스에는 seedance 로 검색하면 온갖 유료 사이트들이 판치고 있더군요. 뭔가 장사가 되나 봅니다.

공식 블로그에도 아직 중국어 포스팅만 있네요. 거기에 영상이 좀 더 많습니다.

https://seed.bytedance.com/en/blog/…