Real-time reinforcement learning by sequential actor--critics and experience replay

· 2009

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

High-Dimensional Continuous Control Using Generalized Advantage Estimation

cs.LG · 2015-06-08 · accept · novelty 8.0

Generalized advantage estimation combined with trust region optimization enables stable neural network policy learning for complex continuous control from raw kinematics.

citing papers explorer

Showing 1 of 1 citing paper.

High-Dimensional Continuous Control Using Generalized Advantage Estimation cs.LG · 2015-06-08 · accept · none · ref 23
Generalized advantage estimation combined with trust region optimization enables stable neural network policy learning for complex continuous control from raw kinematics.

Real-time reinforcement learning by sequential actor--critics and experience replay

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer