11plus-bench: Demystifying multimodal llm spatial reasoning with cognitive-inspired analysis

URL https://aclanthology · 2024 · arXiv 2508.20068

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

method 1

citation-polarity summary

use method 1

representative citing papers

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

cs.CV · 2026-02-02 · unverdicted · novelty 7.0

VIBE benchmark evaluates visual instruction following in image editing models across deictic, morphological, and causal levels, finding proprietary models lead but all degrade on harder tasks.

Do multimodal models imagine electric sheep?

cs.CV · 2026-05-10 · conditional · novelty 6.0

Fine-tuning VLMs to output action sequences for puzzles causes emergent internal visual representations that improve performance when integrated into reasoning.

Multimodal Language Models Cannot Spot Spatial Inconsistencies

cs.CV · 2026-04-01 · unverdicted · novelty 6.0

Multimodal LLMs significantly underperform humans at spotting objects that break 3D consistency in multi-view image pairs.

citing papers explorer

Showing 3 of 3 citing papers.

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing cs.CV · 2026-02-02 · unverdicted · none · ref 1
VIBE benchmark evaluates visual instruction following in image editing models across deictic, morphological, and causal levels, finding proprietary models lead but all degrade on harder tasks.
Do multimodal models imagine electric sheep? cs.CV · 2026-05-10 · conditional · none · ref 10
Fine-tuning VLMs to output action sequences for puzzles causes emergent internal visual representations that improve performance when integrated into reasoning.
Multimodal Language Models Cannot Spot Spatial Inconsistencies cs.CV · 2026-04-01 · unverdicted · none · ref 20
Multimodal LLMs significantly underperform humans at spotting objects that break 3D consistency in multi-view image pairs.

11plus-bench: Demystifying multimodal llm spatial reasoning with cognitive-inspired analysis

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer