Dynamic multi-target fusion for efficient audio-visual navigation

· 2025 · arXiv 2509.21377

6 Pith papers cite this work. Polarity classification is still indexing.

6 Pith papers citing it

read on arXiv browse 6 citing papers

citation-role summary

background 2 other 1

citation-polarity summary

background 2 unclear 1

representative citing papers

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

cs.SD · 2026-04-06 · unverdicted · novelty 7.0

BDATP enhances generalization in audio-visual navigation by explicitly modeling interaural differences and using auxiliary action prediction, achieving up to 21.6 percentage point gains in success rate on unheard sounds in Replica dataset.

EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence

cs.CV · 2026-04-25 · unverdicted · novelty 6.0

EAD-Net uses a diffusion model with new spatio-temporal attention, graph-based temporal reasoning, and LLM-derived semantic descriptions to generate emotionally expressive talking head videos with improved lip-sync and coherence over prior methods.

Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation

cs.SD · 2026-04-02 · unverdicted · novelty 6.0

RAVN improves audio-visual navigation by learning audio-derived reliability cues via an Acoustic Geometry Reasoner and using them to modulate visual features through Reliability-Aware Geometric Modulation.

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

cs.SD · 2026-04-02 · unverdicted · novelty 5.0

SACF discretizes target direction and distance from audio-visual cues then applies conditioned fusion to improve navigation efficiency and generalization to unheard sounds.

Audio Spatially-Guided Fusion for Audio-Visual Navigation

cs.SD · 2026-04-02 · unverdicted · novelty 5.0

Audio Spatially-Guided Fusion improves generalization in audio-visual navigation on unheard sound sources by extracting spatial audio features and adaptively fusing them with visual data.

ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations

cs.SD · 2026-04-28 · unverdicted · novelty 4.0

ML-SAN uses input calibration with FiLM, interaction gating, and output regularization to adapt emotion recognition to individual speaker styles, reporting gains on MELD and IEMOCAP especially for rare sentiment classes.

citing papers explorer

Showing 6 of 6 citing papers.

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction cs.SD · 2026-04-06 · unverdicted · none · ref 14
BDATP enhances generalization in audio-visual navigation by explicitly modeling interaural differences and using auxiliary action prediction, achieving up to 21.6 percentage point gains in success rate on unheard sounds in Replica dataset.
EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence cs.CV · 2026-04-25 · unverdicted · none · ref 45
EAD-Net uses a diffusion model with new spatio-temporal attention, graph-based temporal reasoning, and LLM-derived semantic descriptions to generate emotionally expressive talking head videos with improved lip-sync and coherence over prior methods.
Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation cs.SD · 2026-04-02 · unverdicted · none · ref 7
RAVN improves audio-visual navigation by learning audio-derived reliability cues via an Acoustic Geometry Reasoner and using them to modulate visual features through Reliability-Aware Geometric Modulation.
Spatial-Aware Conditioned Fusion for Audio-Visual Navigation cs.SD · 2026-04-02 · unverdicted · none · ref 4
SACF discretizes target direction and distance from audio-visual cues then applies conditioned fusion to improve navigation efficiency and generalization to unheard sounds.
Audio Spatially-Guided Fusion for Audio-Visual Navigation cs.SD · 2026-04-02 · unverdicted · none · ref 11
Audio Spatially-Guided Fusion improves generalization in audio-visual navigation on unheard sound sources by extracting spatial audio features and adaptively fusing them with visual data.
ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations cs.SD · 2026-04-28 · unverdicted · none · ref 39
ML-SAN uses input calibration with FiLM, interaction gating, and output regularization to adapt emotion recognition to individual speaker styles, reporting gains on MELD and IEMOCAP especially for rare sentiment classes.

Dynamic multi-target fusion for efficient audio-visual navigation

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer