Empowering segmentation ability to multi-modal large language models.arXiv preprint arXiv:2403.14141, 2024

Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li · 2024 · arXiv 2403.14141

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Train the Agent, Not the Expert: Learning to Harness Heterogeneous Experts for Multi-Turn Visual Reasoning

cs.CV · 2026-05-28 · unverdicted · novelty 7.0

VisHarness learns a reinforcement-learned policy to harness specialized visual experts via multi-turn interactions and dynamic visual memory archiving, outperforming general models on four visual reasoning benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

Train the Agent, Not the Expert: Learning to Harness Heterogeneous Experts for Multi-Turn Visual Reasoning cs.CV · 2026-05-28 · unverdicted · none · ref 38
VisHarness learns a reinforcement-learned policy to harness specialized visual experts via multi-turn interactions and dynamic visual memory archiving, outperforming general models on four visual reasoning benchmarks.

Empowering segmentation ability to multi-modal large language models.arXiv preprint arXiv:2403.14141, 2024

fields

years

verdicts

representative citing papers

citing papers explorer