s3: You Don ' t Need That Much Data to Train a Search Agent via RL

Jiang, Pengcheng, Xu, Xueqiang, Lin, Jiacheng, Xiao, Jinfeng, Wang, Zifeng, Sun, Jimeng · 2025 · DOI 10.18653/v1/2025.emnlp-main.1095

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents

cs.CL · 2026-06-02 · unverdicted · novelty 7.0

ARBOR introduces a reusable rubric buffer that consolidates contrastive trajectory drafts into cross-query rubrics for online process rewards, outperforming GRPO and DAPO on multi-hop QA benchmarks.

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

cs.AI · 2026-06-01 · unverdicted · novelty 6.0

Harness-1 uses a state-externalizing harness for RL-trained search agents and reports 0.730 average curated recall, outperforming the next open subagent by 11.4 points.

citing papers explorer

Showing 1 of 1 citing paper after filters.

ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents cs.CL · 2026-06-02 · unverdicted · none · ref 16
ARBOR introduces a reusable rubric buffer that consolidates contrastive trajectory drafts into cross-query rubrics for online process rewards, outperforming GRPO and DAPO on multi-hop QA benchmarks.

s3: You Don ' t Need That Much Data to Train a Search Agent via RL

fields

years

verdicts

representative citing papers

citing papers explorer