Training-free guidance in text-to-video generation via multimodal planning and structured noise initialization.arXivpreprint

Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal · 2025 · arXiv 2504.08641

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

cs.CV · 2026-04-10 · unverdicted · novelty 7.0

CT-1 transfers spatial reasoning from vision-language models to estimate camera trajectories, which are then used in a video diffusion model with wavelet regularization to produce controllable videos, claiming 25.7% better accuracy than prior methods.

citing papers explorer

Showing 1 of 1 citing paper.

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation cs.CV · 2026-04-10 · unverdicted · none · ref 16
CT-1 transfers spatial reasoning from vision-language models to estimate camera trajectories, which are then used in a video diffusion model with wavelet regularization to produce controllable videos, claiming 25.7% better accuracy than prior methods.

Training-free guidance in text-to-video generation via multimodal planning and structured noise initialization.arXivpreprint

fields

years

verdicts

representative citing papers

citing papers explorer