Fcot-vl: Advancing text-oriented large vision-language models with efficient visual token compression.arXiv preprint arXiv:2502.18512, 2025

Jianjian Li et al · 2025 · arXiv 2502.18512

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Reasoning Text-to-Video Retrieval for Operating Room Clips via Action-Driven Digital Twins

cs.CV · 2026-06-15 · conditional · novelty 7.0

OR3 converts OR clips to action-driven digital twins, uses LLM imagination for hypothetical ActDTs, and achieves 57.6 R@1 and 77.3 R@5 on 276 implicit queries from 386 robotic knee procedure clips, outperforming baselines.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Reasoning Text-to-Video Retrieval for Operating Room Clips via Action-Driven Digital Twins cs.CV · 2026-06-15 · conditional · none · ref 11
OR3 converts OR clips to action-driven digital twins, uses LLM imagination for hypothetical ActDTs, and achieves 57.6 R@1 and 77.3 R@5 on 276 implicit queries from 386 robotic knee procedure clips, outperforming baselines.

Fcot-vl: Advancing text-oriented large vision-language models with efficient visual token compression.arXiv preprint arXiv:2502.18512, 2025

fields

years

verdicts

representative citing papers

citing papers explorer