Contextual: Evaluating context- sensitive text-rich visual reasoning in large multimodal models.arXiv preprint arXiv:2401.13311, 2024

Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng · 2024 · arXiv 2401.13311

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR

cs.CV · 2025-11-19 · unverdicted · novelty 7.0

FinCriticalED benchmark reveals that OCR and MLLM systems frequently fail to preserve critical financial facts such as numbers and monetary units even when lexical accuracy is high.

OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles

cs.CV · 2025-03-21 · conditional · novelty 6.0

Iterative SFT-RL cycles enable a 7B LVLM to develop sophisticated visual chain-of-thought reasoning and improve performance on math and general reasoning benchmarks.

citing papers explorer

Showing 2 of 2 citing papers.

FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR cs.CV · 2025-11-19 · unverdicted · none · ref 31
FinCriticalED benchmark reveals that OCR and MLLM systems frequently fail to preserve critical financial facts such as numbers and monetary units even when lexical accuracy is high.
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles cs.CV · 2025-03-21 · conditional · none · ref 71
Iterative SFT-RL cycles enable a 7B LVLM to develop sophisticated visual chain-of-thought reasoning and improve performance on math and general reasoning benchmarks.

Contextual: Evaluating context- sensitive text-rich visual reasoning in large multimodal models.arXiv preprint arXiv:2401.13311, 2024

fields

years

verdicts

representative citing papers

citing papers explorer