Dissecting multimodality in videoqa transformer models by impairing modality fusion.arXiv preprint arXiv:2306.08889, 2023

Ishaan Singh Rawal, Alexander Matyasko, Shantanu Jaiswal, Basura Fernando, Cheston Tan · 2023 · arXiv 2306.08889

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

H-GRPO: Permutation-Invariant Reinforcement Learning for Grounded Visual Reasoning

cs.CV · 2026-06-29 · unverdicted · novelty 5.0

De-compositional Evidence Grounding decomposes visual reasoning into atomic sub-questions each tied to a specific image region to improve VLM performance and interpretability.

citing papers explorer

Showing 1 of 1 citing paper after filters.

H-GRPO: Permutation-Invariant Reinforcement Learning for Grounded Visual Reasoning cs.CV · 2026-06-29 · unverdicted · none · ref 27
De-compositional Evidence Grounding decomposes visual reasoning into atomic sub-questions each tied to a specific image region to improve VLM performance and interpretability.

Dissecting multimodality in videoqa transformer models by impairing modality fusion.arXiv preprint arXiv:2306.08889, 2023

fields

years

verdicts

representative citing papers

citing papers explorer