Reinforcement learning for long-horizon multi-turn search agents

Vivek Kalyan, Martin Andrews · arXiv 2510.24126

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

ARCO: Adaptive Rubric with Co-Evolution for Multi-Step LLM-Based Agents

cs.AI · 2026-06-19 · unverdicted · novelty 6.0

ARCO introduces a co-evolving rubric model with generation and scoring heads plus a trajectory decomposition constraint that improves exact-match scores on multi-hop QA tasks over outcome, rubric, and process reward baselines.

citing papers explorer

Showing 1 of 1 citing paper.

ARCO: Adaptive Rubric with Co-Evolution for Multi-Step LLM-Based Agents cs.AI · 2026-06-19 · unverdicted · none · ref 9
ARCO introduces a co-evolving rubric model with generation and scoring heads plus a trajectory decomposition constraint that improves exact-match scores on multi-hop QA tasks over outcome, rubric, and process reward baselines.

Reinforcement learning for long-horizon multi-turn search agents

fields

years

verdicts

representative citing papers

citing papers explorer