A simple” try again” can elicit multi-turn llm reasoning.arXiv preprint arXiv:2507.14295,

Liu, L · arXiv 2507.14295

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

cs.LG · 2026-05-29 · unverdicted · novelty 6.0

DRIFT achieves multi-turn RL performance via offline importance-weighted SFT by leveraging the equivalence of KL-regularized RL to weighted supervised learning.

citing papers explorer

Showing 1 of 1 citing paper.

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization cs.LG · 2026-05-29 · unverdicted · none · ref 13
DRIFT achieves multi-turn RL performance via offline importance-weighted SFT by leveraging the equivalence of KL-regularized RL to weighted supervised learning.

A simple” try again” can elicit multi-turn llm reasoning.arXiv preprint arXiv:2507.14295,

fields

years

verdicts

representative citing papers

citing papers explorer