Tomato: Assess- ing visual temporal reasoning capabilities in multimodal foundation models.arXiv preprint arXiv:2311.14468,

Li, Z · arXiv 2311.14468

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Structure Over Scale: Learning Visual Reasoning from Pedagogical Video

cs.CV · 2026-01-30 · unverdicted · novelty 6.0

Fine-tuning VLMs on 10K QA pairs from pedagogical children's videos produces consistent gains on NExT-QA, Video-MME, and MotionBench, indicating that explicit structure can substitute for data scale.

citing papers explorer

Showing 1 of 1 citing paper.

Structure Over Scale: Learning Visual Reasoning from Pedagogical Video cs.CV · 2026-01-30 · unverdicted · none · ref 4
Fine-tuning VLMs on 10K QA pairs from pedagogical children's videos produces consistent gains on NExT-QA, Video-MME, and MotionBench, indicating that explicit structure can substitute for data scale.

Tomato: Assess- ing visual temporal reasoning capabilities in multimodal foundation models.arXiv preprint arXiv:2311.14468,

fields

years

verdicts

representative citing papers

citing papers explorer