How to explore to scale rl training of llms on hard problems? https://blog.ml.cmu.edu/2025/1 1/26/how-to-explore-to-scale-rl-train ing-of-llms-on-hard-problems

Qu, Y · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

cs.LG · 2026-01-28 · unverdicted · novelty 7.0

Failure-prefix conditioning unlocks learning from saturated reasoning problems by conditioning on failure prefixes, improving recovery from misleading early steps and matching gains from new medium-difficulty problems.

citing papers explorer

Showing 1 of 1 citing paper.

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning cs.LG · 2026-01-28 · unverdicted · none · ref 15
Failure-prefix conditioning unlocks learning from saturated reasoning problems by conditioning on failure prefixes, improving recovery from misleading early steps and matching gains from new medium-difficulty problems.

How to explore to scale rl training of llms on hard problems? https://blog.ml.cmu.edu/2025/1 1/26/how-to-explore-to-scale-rl-train ing-of-llms-on-hard-problems

fields

years

verdicts

representative citing papers

citing papers explorer