Policy mirror descent inherently explores action space.SIAM Journal on Optimization, 35(1):116–156, 2025

Yan Li, Guanghui Lan · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Value Mirror Descent for Reinforcement Learning

math.OC · 2026-04-07 · unverdicted · novelty 5.0

Value mirror descent integrates mirror descent into value iteration for discounted MDPs, delivering near-optimal sample complexity of order |S||A|(1-γ)^{-3}ε^{-2} for general convex regularizers and bounded Bregman divergence between generated and optimal policies.

citing papers explorer

Showing 1 of 1 citing paper.

Value Mirror Descent for Reinforcement Learning math.OC · 2026-04-07 · unverdicted · none · ref 19
Value mirror descent integrates mirror descent into value iteration for discounted MDPs, delivering near-optimal sample complexity of order |S||A|(1-γ)^{-3}ε^{-2} for general convex regularizers and bounded Bregman divergence between generated and optimal policies.

Policy mirror descent inherently explores action space.SIAM Journal on Optimization, 35(1):116–156, 2025

fields

years

verdicts

representative citing papers

citing papers explorer