Seedance 2.0 정식 출시

(seed.bytedance.com)

ByteDance Seed 팀이 공개한 차세대 멀티모달 영상 생성 모델로, 텍스트·이미지·오디오·비디오 입력을 통합 지원
물리 정확도와 현실감이 강화되어 복잡한 인물 상호작용과 운동 장면에서도 높은 안정성과 일관성 확보
최대 9장 이미지·3개 영상·3개 오디오를 동시에 입력해 구성·운동·특효·음향을 반영하며, 영상 편집과 연장 기능으로 정밀한 제어 가능
15초 고품질 다중 카메라 출력과 스테레오 오디오를 지원해 영화·광고·게임 등 산업용 콘텐츠 제작 효율을 크게 향상
종합 평가에서 업계 최고 수준의 생성 품질과 지시문 준수 성능을 기록했으며, 향후 세밀한 안정성과 다중 인물 일관성 개선 예정

Seedance 2.0 개요

2026년 2월 12일 공개된 Seedance 2.0은 ByteDance의 통합 멀티모달 음·영상 생성 모델
- 텍스트, 이미지, 오디오, 비디오 네 가지 입력을 동시에 처리
- 기존 1.5 버전 대비 생성 품질, 물리 정확도, 현실감, 제어성 모두 향상
산업용 영상 제작을 목표로 하며, 영상 길이 15초, 다중 카메라, 스테레오 오디오를 지원
현재 즉몽AI, Doubao(豆包) 등 플랫폼에서 체험 가능

복잡한 운동·상호작용 안정성 강화
- 다중 인물의 동작과 물리 규칙을 자연스럽게 재현
- 예시로, 두 사람의 피겨스케이팅 장면에서 점프·회전·착지 동작을 현실적으로 구현
멀티모달 입력 확장
- 최대 9장 이미지, 3개 영상, 3개 오디오, 자연어 명령을 혼합 입력
- 입력 자료의 구도·운동·카메라워크·특효·음향 요소를 반영해 생성
정밀한 제어 및 편집 기능
- 지시문 일관성 향상, 복잡한 스크립트도 정확히 재현
- 영상 연장·부분 편집 기능으로 장면·인물·동작 수정 가능
고품질 오디오 생성
- 양채널 스테레오로 배경음·효과음·해설을 동시 생성
- ASMR·무협 장면 등에서 세밀한 음향 질감과 시각 동기화 구현
산업 전반 적용성
- 광고, 영화, 게임, 해설 영상 등 다양한 제작 환경에 대응
- AI 기반으로 특수효과·촬영 비용 절감 및 제작 기간 단축

영상 생성 품질
- 운동 안정성, 지시문 준수, 미적 완성도에서 업계 선도 수준
- 복잡한 동작·표정·카메라 연출을 정밀하게 표현
- 일부 세부 안정성과 동적 생동감은 개선 필요
오디오 생성 품질
- 스테레오 사운드의 층위감과 장면 맞춤 음향 향상
- 대사·음악·효과음의 시각적 일치도 강화
- 다중 인물의 입 모양 동기화와 음성 왜곡은 일부 한계 존재
멀티모달 참조 생성
- 다양한 입력 조합을 이해하고 정확히 반영
- 편집·연장 작업에서 높은 일관성과 사실성 확보
- 다중 인물 일관성·텍스트 재현 정밀도는 추가 개선 필요