In our experiment, we use the proximal policy optimization (PPO) (Schul- man et al., 2017) algorithm with generalized advan- tage estimation (GAE) as the advantage estimator

to train our models · 2017

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning

cs.CL · 2025-06-06 · unverdicted · novelty 6.0

Writing-RL applies adaptive curriculum RL with pairwise rewards and dynamic scheduling to enhance long-form writing in 7B LLMs over SFT baselines and shows generalization to long-input reasoning tasks.

citing papers explorer

Showing 1 of 1 citing paper.

Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning cs.CL · 2025-06-06 · unverdicted · none · ref 7
Writing-RL applies adaptive curriculum RL with pairwise rewards and dynamic scheduling to enhance long-form writing in 7B LLMs over SFT baselines and shows generalization to long-input reasoning tasks.

In our experiment, we use the proximal policy optimization (PPO) (Schul- man et al., 2017) algorithm with generalized advan- tage estimation (GAE) as the advantage estimator

fields

years

verdicts

representative citing papers

citing papers explorer