role": "user

{"role": "user", "content": "Specific task description

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning

cs.AI · 2025-08-05 · unverdicted · novelty 6.0

BPO framework achieves state-of-the-art performance with improved token efficiency on ALFWorld, ScienceWorld, and WebShop by bootstrapping efficient reasoning, extrapolating via curriculum, and refining on reward-selected experiences.

citing papers explorer

Showing 1 of 1 citing paper.

Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning cs.AI · 2025-08-05 · unverdicted · none · ref 5
BPO framework achieves state-of-the-art performance with improved token efficiency on ALFWorld, ScienceWorld, and WebShop by bootstrapping efficient reasoning, extrapolating via curriculum, and refining on reward-selected experiences.

role": "user

fields

years

verdicts

representative citing papers

citing papers explorer