Scaling up visual and vision- language representation learning with noisy text su- pervision

Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, Tom Duerig · 2021

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

The ART of Composition: Attention-Regularized Training for Compositional Visual Grounding

cs.CV · 2024-12-11 · unverdicted · novelty 7.0

CompART adds a composition loss on decomposed captions to regularize attention sums and improves multi-object grounding plus VQA across four VLM types and six benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

The ART of Composition: Attention-Regularized Training for Compositional Visual Grounding cs.CV · 2024-12-11 · unverdicted · none · ref 17
CompART adds a composition loss on decomposed captions to regularize attention sums and improves multi-object grounding plus VQA across four VLM types and six benchmarks.

Scaling up visual and vision- language representation learning with noisy text su- pervision

fields

years

verdicts

representative citing papers

citing papers explorer