Klaus Krippendorff

TableVQA-Bench: A visual question answering benchmark on multiple table domains · 2011 · arXiv 2410.07112

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

cs.CL · 2026-06-09 · conditional · novelty 6.0

A 540-image benchmark with four phrasing variants per image reveals VLMs degrade when text leakage is minimized, with no-image ablations confirming reliance and GRPO post-training yielding gains that transfer to held-out data.

Compliance-Scored Best-of-N Guardrail Orchestration for Multimodal Document Generation in Payments Dispute Defense

cs.DC · 2026-06-01 · unverdicted · novelty 3.0

A compliance-scored best-of-N orchestration layer for multimodal document generation reports 91% compliance at 5 attempts in 20 seconds and +11 percentage point win rate gains in aggregate operational data for payments dispute defense.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark cs.CL · 2026-06-09 · conditional · none · ref 3
A 540-image benchmark with four phrasing variants per image reveals VLMs degrade when text leakage is minimized, with no-image ablations confirming reliance and GRPO post-training yielding gains that transfer to held-out data.

Klaus Krippendorff

fields

years

verdicts

representative citing papers

citing papers explorer