Show, attend and tell: Neural image caption generation with visual attention

Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, Yoshua Bengio · 2015

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding

cs.CV · 2025-06-11 · unverdicted · novelty 5.0

ReVisiT refines LVLM output distributions during decoding by projecting selected vision tokens into text space via context-aware constrained divergence minimization.

citing papers explorer

Showing 1 of 1 citing paper.

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding cs.CV · 2025-06-11 · unverdicted · none · ref 18
ReVisiT refines LVLM output distributions during decoding by projecting selected vision tokens into text space via context-aware constrained divergence minimization.

Show, attend and tell: Neural image caption generation with visual attention

fields

years

verdicts

representative citing papers

citing papers explorer