Reasoning in computer vision: Taxonomy, models, tasks, and methodologies.arXiv preprint arXiv:2508.10523, 2025

Ayushman Sarkar, Mohd Yamani Idna Idris, Zhenyu Yu · 2025 · arXiv 2508.10523

8 Pith papers cite this work. Polarity classification is still indexing.

8 Pith papers citing it

read on arXiv browse 8 citing papers

citation-role summary

method 1

citation-polarity summary

use method 1

representative citing papers

Learning Vision-Language-Action World Models for Autonomous Driving

cs.CV · 2026-04-10 · unverdicted · novelty 7.0

VLA-World improves autonomous driving by using action-guided future image generation followed by reflective reasoning over the imagined scene to refine trajectories.

An Open-Source Benchmark and Baseline for Multi-temporal Referring Segmentation

cs.CV · 2026-05-31 · conditional · novelty 6.0

Introduces MTRS task, MTRefSeg-21K benchmark of 21K image-text-mask triplets, and MTRefSeg-R1 LVLM baseline that outperforms standard models via two-stage change-aware training.

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

cs.CV · 2025-05-23 · conditional · novelty 6.0

FSDrive uses a generated future scene frame as visual spatio-temporal CoT to improve VLA models for safer autonomous driving trajectory prediction.

Cross-Modal Hierarchical Fusion for from Multi-Sensor Ground Observation

cs.CV · 2026-05-31 · unverdicted · novelty 5.0

AtmoFuseNet fuses multi-view sky cameras, millimeter-wave radar, and ceilometer data via hierarchical cross-attention, variational refinement, and motion estimation to produce 4D cloud microphysical fields and wind with reported MAEs of 0.026 g m^{-3} LWC and 1.18 m s^{-1} wind speed.

Conformal Risk Prediction for Non-Alcoholic Fatty Liver Disease Using Gradient Boosting with Distribution-Free Coverages

cs.LG · 2026-05-31 · unverdicted · novelty 4.0

Gradient boosting with conformal prediction and mutual-information stability selection yields NAFLD risk predictions with 91.3% empirical coverage at 90% nominal level and AUROC 0.91 on multicenter Chinese data.

Afrispeech Semantics: Evaluating Audio Semantic Reasoning in Spoken Language Models Across Domains and Accents

cs.CL · 2026-05-11 · unverdicted · novelty 4.0

Audio language models are benchmarked on five semantic and paralinguistic reasoning tasks to reveal limitations in handling spoken audio evidence, accent variation, and domain shifts.

Mitigating Hallucination on Hallucination in RAG via Ensemble Voting

cs.CL · 2026-03-28 · unverdicted · novelty 4.0

VOTE-RAG applies retrieval voting across diverse queries and response voting across independent generations to mitigate hallucination-on-hallucination in RAG, matching or exceeding complex baselines on six benchmarks with a parallelizable design.

Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline

cs.CV · 2026-04-17

citing papers explorer

Showing 1 of 1 citing paper after filters.

FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving cs.CV · 2025-05-23 · conditional · none · ref 52
FSDrive uses a generated future scene frame as visual spatio-temporal CoT to improve VLA models for safer autonomous driving trajectory prediction.

Reasoning in computer vision: Taxonomy, models, tasks, and methodologies.arXiv preprint arXiv:2508.10523, 2025

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer