Sample efficient policy gradient methods with recursive variance reduction.arXiv preprint arXiv:1909.08610,

Xu, P · 1909 · arXiv 1909.08610

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Distributed Direct Preference Optimization

cs.LG · 2026-05-20 · unverdicted · novelty 7.0

First convergence analysis of DPO under federated and decentralized training, characterizing rates via client drift, communication frequency, preference heterogeneity, and graph spectral connectivity.

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation

cs.LG · 2026-05-18 · unverdicted · novelty 7.0

RAT reformulates regularized natural policy gradients as vanilla gradients with a transformed advantage, computed efficiently via randomized block Kaczmarz iterations on on-policy data.

citing papers explorer

Showing 2 of 2 citing papers.

Distributed Direct Preference Optimization cs.LG · 2026-05-20 · unverdicted · none · ref 14
First convergence analysis of DPO under federated and decentralized training, characterizing rates via client drift, communication frequency, preference heterogeneity, and graph spectral connectivity.
Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation cs.LG · 2026-05-18 · unverdicted · none · ref 123
RAT reformulates regularized natural policy gradients as vanilla gradients with a transformed advantage, computed efficiently via randomized block Kaczmarz iterations on on-policy data.

Sample efficient policy gradient methods with recursive variance reduction.arXiv preprint arXiv:1909.08610,

fields

years

verdicts

representative citing papers

citing papers explorer