Simplevqa: Multimodal factuality evaluation for multimodal large language models.2025 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4637–4646

Xianfu Cheng, Wei Zhang, Shiwei Zhang, Jian Yang, Xiangyuan Guan, Xianjie Wu, Xiang Li, Ge Zhang, Jiaheng Liu, Yuying Mai, Yutao Zeng, Zhoufutu Wen, Ke Jin, Baorui Wang, Wei ye Zhou, Yun Lu, Tongliang Li, Wenhao Huang, Zhoujun Li · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

cs.LG · 2026-05-19 · unverdicted · novelty 6.0

ClaimDiff-RL introduces reference-conditioned atomic claim differences verified by a multimodal judge as the reward signal for fine-grained RL in long-form image captioning.

citing papers explorer

Showing 1 of 1 citing paper after filters.

ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison cs.LG · 2026-05-19 · unverdicted · none · ref 5
ClaimDiff-RL introduces reference-conditioned atomic claim differences verified by a multimodal judge as the reward signal for fine-grained RL in long-form image captioning.

Simplevqa: Multimodal factuality evaluation for multimodal large language models.2025 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4637–4646

fields

years

verdicts

representative citing papers

citing papers explorer