Lightricks LTX-2 - 오픈소스 최초 오디오·비디오 통합 생성 모델
(aisparkup.com)📝 TL;DR
- LTX-2 = 오픈소스 멀티모달 비디오 생성 모델의 새 기준
- 4K+오디오를 소비자급 하드웨어에서 실시간 생성
- 11월 말 모델 가중치+코드+벤치마크 전체 공개
- Lightricks 제작, arXiv 논문 공개됨
🔑 Key Highlights
-
오픈소스 최초의 오디오-비디오 동기화 생성 모델
- Sora 2, Movie Gen은 상용/비공개, LTX-2는 11월 말 완전 오픈소스 공개
- 4K 50fps, 최대 10초 영상 + 동기화된 오디오 생성
-
실시간보다 빠른 생성 속도
- H100: 768x512 해상도, 5초 24fps 영상을 단 2초에 생성
- 기존 모델 대비 연산 비용 50% 절감
- 소비자급 GPU(RTX 4090 등)에서도 실행 가능
-
하이브리드 DiT 아키텍처의 혁신
- Video-VAE: 1:192 압축률 (32x32x8 다운스케일링)
- VAE 디코더가 최종 디노이징까지 수행 → 별도 업샘플링 없이 세밀한 디테일 유지
- 멀티 GPU 추론 스택으로 실시간 성능 구현
-
세밀한 크리에이티브 제어
- 멀티 키프레임 컨디셔닝, 3D 카메라 로직
- LoRA 파인튜닝으로 브랜드 스타일/IP 일관성 유지
- Fast/Pro/Ultra 3가지 모드로 속도-품질 조절
-
즉시 사용 가능한 생태계
- Fal.ai, Replicate, ComfyUI 통합 완료
- API Playground에서 테스트 가능
- 편집 도구, VFX 스택, 게임 엔진 직접 통합 지원