Looking Beyond Text: Reducing Language Bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance

Zhao, Haozhe, Si, Shuzheng, Chen, Liang, Zhang, Yichi, Sun, Maosong, Chang, Baobao · 2025 · DOI 10.18653/v1/2025.emnlp-main.995

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

cs.CV · 2026-06-10 · unverdicted · novelty 7.0

BridgeVLM internalizes causal supervision in VLMs via causal graph induction, Causal Tokens, and RAMP layers with M3S training, raising intervention accuracy on CausalVLBench from 33.2% to 54.4% and structure learning F1 from 33.4% to 75.1%.

citing papers explorer

Showing 1 of 1 citing paper after filters.

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning cs.CV · 2026-06-10 · unverdicted · none · ref 4
BridgeVLM internalizes causal supervision in VLMs via causal graph induction, Causal Tokens, and RAMP layers with M3S training, raising intervention accuracy on CausalVLBench from 33.2% to 54.4% and structure learning F1 from 33.4% to 75.1%.

Looking Beyond Text: Reducing Language Bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance

fields

years

verdicts

representative citing papers

citing papers explorer