Variance reduction techniques for gradient estimates in reinforcement learning.Journal of Machine Learning Research, 5(Nov):1471–1530

Evan Greensmith, Peter L Bartlett, Jonathan Baxter · 2004

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

cs.LG · 2026-04-08 · unverdicted · novelty 6.0

Sol-RL decouples FP4-based candidate exploration from BF16 policy optimization in diffusion RL, delivering up to 4.64x faster convergence with maintained or superior alignment performance on models like FLUX.1 and SD3.5.

Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration

cs.AI · 2026-05-08 · unverdicted · novelty 5.0

MDPO improves differentiable planning by injecting gradient-sensitivity-adapted noise into the action space, outperforming both deterministic variants and PPO on nonlinear and hybrid benchmarks.

citing papers explorer

Showing 2 of 2 citing papers.

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling cs.LG · 2026-04-08 · unverdicted · none · ref 17
Sol-RL decouples FP4-based candidate exploration from BF16 policy optimization in diffusion RL, delivering up to 4.64x faster convergence with maintained or superior alignment performance on models like FLUX.1 and SD3.5.
Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration cs.AI · 2026-05-08 · unverdicted · none · ref 3
MDPO improves differentiable planning by injecting gradient-sensitivity-adapted noise into the action space, outperforming both deterministic variants and PPO on nonlinear and hybrid benchmarks.

Variance reduction techniques for gradient estimates in reinforcement learning.Journal of Machine Learning Research, 5(Nov):1471–1530

fields

years

verdicts

representative citing papers

citing papers explorer