End-to-end learning of visual representations from uncurated instructional videos

Antoine Miech, Jean-Baptiste Alayrac, Lucas Smaira, Ivan Laptev, Josef Sivic, Andrew Zisserman · 2020

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

RECIPE: Procedural Planning via Grounding in Instructional Video

cs.CV · 2026-05-19 · unverdicted · novelty 7.0

RECIPE improves visual procedural planners by rewarding plans according to their grounding quality in ASR transcripts via GRPO, yielding +7–8 in-domain and up to +16 zero-shot macro-accuracy gains over base models and outperforming supervised fine-tuning on seven benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

RECIPE: Procedural Planning via Grounding in Instructional Video cs.CV · 2026-05-19 · unverdicted · none · ref 22
RECIPE improves visual procedural planners by rewarding plans according to their grounding quality in ASR transcripts via GRPO, yielding +7–8 in-domain and up to +16 zero-shot macro-accuracy gains over base models and outperforming supervised fine-tuning on seven benchmarks.

End-to-end learning of visual representations from uncurated instructional videos

fields

years

verdicts

representative citing papers

citing papers explorer