Lillicrap, Jonathan J

Timothy P · 2019

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Distributional Reinforcement Learning via the Cram\'er Distance

cs.LG · 2026-04-26 · unverdicted · novelty 6.0

C-DSAC applies the Cramér distance to distributional value learning inside SAC and outperforms standard SAC on robotic benchmarks, with larger gains in complex environments due to confidence-driven conservative updates.

AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

cs.LG · 2026-05-07 · unverdicted · novelty 5.0

AdaGamma stabilizes state-dependent discounting in deep actor-critic RL by adding a return-consistency regularizer, delivering gains on continuous-control benchmarks and a real-world logistics A/B test.

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

cs.LG · 2025-11-10 · unverdicted · novelty 5.0

Introduces an off-policy adversarial imitation learning method with double Q stabilization that reduces samples required to match expert behavior.

citing papers explorer

Showing 3 of 3 citing papers.

Distributional Reinforcement Learning via the Cram\'er Distance cs.LG · 2026-04-26 · unverdicted · none · ref 20
C-DSAC applies the Cramér distance to distributional value learning inside SAC and outperforms standard SAC on robotic benchmarks, with larger gains in complex environments due to confidence-driven conservative updates.
AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning cs.LG · 2026-05-07 · unverdicted · none · ref 6
AdaGamma stabilizes state-dependent discounting in deep actor-critic RL by adding a return-consistency regularizer, delivering gains on continuous-control benchmarks and a real-world logistics A/B test.
Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization cs.LG · 2025-11-10 · unverdicted · none · ref 13
Introduces an off-policy adversarial imitation learning method with double Q stabilization that reduces samples required to match expert behavior.

Lillicrap, Jonathan J

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer