As outlined in Algorithm 1, the canvas width is constrained by a minimum threshold and the scaled auxiliary image

Vertical Layout Strategy

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs

cs.CV · 2026-05-12 · unverdicted · novelty 7.0

UniVLR unifies textual and visual reasoning in multimodal LLMs by compressing reasoning traces and auxiliary images into visual latent tokens for direct inference without interleaved text CoT.

citing papers explorer

Showing 1 of 1 citing paper.

UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs cs.CV · 2026-05-12 · unverdicted · none · ref 40
UniVLR unifies textual and visual reasoning in multimodal LLMs by compressing reasoning traces and auxiliary images into visual latent tokens for direct inference without interleaved text CoT.

As outlined in Algorithm 1, the canvas width is constrained by a minimum threshold and the scaled auxiliary image

fields

years

verdicts

representative citing papers

citing papers explorer