Vista: Enhancing vision-text alignment in mllms via cross-modal mutual in- formation maximization.arXiv preprint arXiv:2505.10917,

Mingxiao Li, Na Su, Fang Qu, Zhizhou Zhong, Ziyang Chen, Yuan Li, Zhaopeng Tu, Xiaolong Li · arXiv 2505.10917

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models

cs.CV · 2026-05-18 · unverdicted · novelty 6.0

Vision Inference Former adds a direct visual-to-output bridge that continuously injects visual semantics during MLLM decoding to sustain consistency and reduce modality imbalance.

citing papers explorer

Showing 1 of 1 citing paper.

Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models cs.CV · 2026-05-18 · unverdicted · none · ref 18
Vision Inference Former adds a direct visual-to-output bridge that continuously injects visual semantics during MLLM decoding to sustain consistency and reduce modality imbalance.

Vista: Enhancing vision-text alignment in mllms via cross-modal mutual in- formation maximization.arXiv preprint arXiv:2505.10917,

fields

years

verdicts

representative citing papers

citing papers explorer