Zero-shot object counting with language-vision models.arXiv preprint arXiv:2309.13097, 2023

Jingyi Xu, Hieu Le, Dimitris Samaras · 2023 · arXiv 2309.13097

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Train the Agent, Not the Expert: Learning to Harness Heterogeneous Experts for Multi-Turn Visual Reasoning

cs.CV · 2026-05-28 · unverdicted · novelty 7.0

VisHarness learns a reinforcement-learned policy to harness specialized visual experts via multi-turn interactions and dynamic visual memory archiving, outperforming general models on four visual reasoning benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

Train the Agent, Not the Expert: Learning to Harness Heterogeneous Experts for Multi-Turn Visual Reasoning cs.CV · 2026-05-28 · unverdicted · none · ref 37
VisHarness learns a reinforcement-learned policy to harness specialized visual experts via multi-turn interactions and dynamic visual memory archiving, outperforming general models on four visual reasoning benchmarks.

Zero-shot object counting with language-vision models.arXiv preprint arXiv:2309.13097, 2023

fields

years

verdicts

representative citing papers

citing papers explorer