Seeing and hearing: Open-domain visual-audio generation with diffusion latent aligners,

Yazhou Xing, Yingqing He, Zeyue Tian, Xintao Wang, Qifeng Chen, “Seeing, hearing: Open-domain visual-audio generation with diffusion latent aligners,” inCVPR · 2024

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

StereoFoley: Object-Aware Stereo Audio Generation from Video

cs.SD · 2025-09-22 · conditional · novelty 7.0

StereoFoley is an end-to-end video-to-stereo-audio framework that uses a base generative model fine-tuned on synthetic object-tracked data with panning and distance controls to achieve object-aware spatial sound.

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation

cs.SD · 2025-10-10 · unverdicted · novelty 4.0

MMAudioSep adapts a pretrained video-to-audio model via fine-tuning for video/text-queried sound separation, outperforming baselines while preserving generation ability.

citing papers explorer

Showing 2 of 2 citing papers.

StereoFoley: Object-Aware Stereo Audio Generation from Video cs.SD · 2025-09-22 · conditional · none · ref 11
StereoFoley is an end-to-end video-to-stereo-audio framework that uses a base generative model fine-tuned on synthetic object-tracked data with panning and distance controls to achieve object-aware spatial sound.
MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation cs.SD · 2025-10-10 · unverdicted · none · ref 24
MMAudioSep adapts a pretrained video-to-audio model via fine-tuning for video/text-queried sound separation, outperforming baselines while preserving generation ability.

Seeing and hearing: Open-domain visual-audio generation with diffusion latent aligners,

fields

years

verdicts

representative citing papers

citing papers explorer