Value iteration in continuous actions, states and time

Value iteration in continuous actions, states, time , author= · 2021 · arXiv 2105.04682

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

cs.LG · 2026-06-02 · unverdicted · novelty 7.0

Derives an SDE describing the infinitesimal change in state distribution at each gradient step for neural actor-critic RL in continuous environments under vanishing learning rate in the infinite width limit.

Convergence of Policy Iteration for Entropy-Regularized Stochastic Control Problems

math.OC · 2022-09-15 · unverdicted · novelty 7.0

Policy iteration converges for entropy-regularized stochastic control via novel Hölder-Sobolev estimates yielding uniform bounds on value functions.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Convergence of Policy Iteration for Entropy-Regularized Stochastic Control Problems math.OC · 2022-09-15 · unverdicted · none · ref 18
Policy iteration converges for entropy-regularized stochastic control via novel Hölder-Sobolev estimates yielding uniform bounds on value functions.

Value iteration in continuous actions, states and time

fields

years

verdicts

representative citing papers

citing papers explorer