Training language models to follow instructions with human feedback

Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al · 2022

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding

cs.CV · 2025-03-17 · unverdicted · novelty 5.0

Time-R1 applies RL with verifiable rewards to post-train LVLMs for temporal video grounding, reaching state-of-the-art results on multiple datasets using only 2.5K samples while also improving general video capabilities.

citing papers explorer

Showing 1 of 1 citing paper.

Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding cs.CV · 2025-03-17 · unverdicted · none · ref 40
Time-R1 applies RL with verifiable rewards to post-train LVLMs for temporal video grounding, reaching state-of-the-art results on multiple datasets using only 2.5K samples while also improving general video capabilities.

Training language models to follow instructions with human feedback

fields

years

verdicts

representative citing papers

citing papers explorer