Cross-modality time-variant relation learning for generating dynamic scene graphs.arXiv preprint arXiv:2305.08522, 2023

Jingyi Wang, Jinfa Huang, Can Zhang, Zhidong Deng · 2023 · arXiv 2305.08522

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

cs.CV · 2026-05-13 · unverdicted · novelty 6.0

SceneGraphVLM generates dynamic scene graphs from video using compact VLMs, TOON serialization, and hallucination-aware RL to improve precision and achieve one-second latency.

citing papers explorer

Showing 1 of 1 citing paper.

SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models cs.CV · 2026-05-13 · unverdicted · none · ref 33
SceneGraphVLM generates dynamic scene graphs from video using compact VLMs, TOON serialization, and hallucination-aware RL to improve precision and achieve one-second latency.

Cross-modality time-variant relation learning for generating dynamic scene graphs.arXiv preprint arXiv:2305.08522, 2023

fields

years

verdicts

representative citing papers

citing papers explorer