Visualvoice: Audio-visual speech separation with cross-modal consistency

· 2021

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

cs.SD · 2026-05-14 · unverdicted · novelty 6.0

IsoNet combines multi-channel STFT, GCC-PHAT cues, face embeddings and DOA supervision in a U-Net to deliver 9.31 dB SI-SDR on simulated -1 to 10 dB SNR mixtures, outperforming oracle beamformers.

citing papers explorer

Showing 1 of 1 citing paper after filters.

IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments cs.SD · 2026-05-14 · unverdicted · none · ref 12
IsoNet combines multi-channel STFT, GCC-PHAT cues, face embeddings and DOA supervision in a U-Net to deliver 9.31 dB SI-SDR on simulated -1 to 10 dB SNR mixtures, outperforming oracle beamformers.

Visualvoice: Audio-visual speech separation with cross-modal consistency

fields

years

verdicts

representative citing papers

citing papers explorer