Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

· 2026 · cs.SD · arXiv 2606.10046

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open full Pith review browse 1 citing papers arXiv PDF

abstract

Flow-matching transformers achieve strong audio separation, yet their attention dynamics are opaque. We adapt established causal-intervention principles into a deterministic, inference-time probing protocol for SAM Audio. Orthogonal probing uncovers a dual-pathway text-conditioning mechanism: additive injections control semantic identity, while cross-attention refines acoustic structure. We observe an asynchronous layerwise convergence: stable layers build temporal scaffolds early, whereas fast layers continue resolving artifacts during sampling. The model also attenuates temporal segmentation cues to maintain continuous-flow stability. Using these insights, we propose Layer-Selective Attention Caching (LSAC), a training-free acceleration method that caches attention in stable layers. Across acoustic complexities, LSAC cuts self-attention computation by about ~25% with negligible quality loss and yields up to 6.7x higher quality retention than naive step reduction.

representative citing papers

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

cs.SD · 2026-06-08 · unverdicted · novelty 5.0

Causal probing of attention in audio separation transformers identifies dual pathways and asynchronous convergence, enabling a training-free Layer-Selective Attention Caching method that reduces self-attention computation by ~25% with negligible quality loss.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models cs.SD · 2026-06-08 · unverdicted · none · ref 2 · internal anchor
Causal probing of attention in audio separation transformers identifies dual pathways and asynchronous convergence, enabling a training-free Layer-Selective Attention Caching method that reduces self-attention computation by ~25% with negligible quality loss.

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

fields

years

verdicts

representative citing papers

citing papers explorer