Robust Constrained Reinforcement Learning

Yue Wang, Fei Miao, Shaofeng Zou · 2022 · arXiv 2209.06866

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

cs.LG · 2026-04-15 · unverdicted · novelty 8.0

RHC-UCRL is the first algorithm for safety-constrained RL under explicit adversarial dynamics, providing sub-linear regret and constraint violation guarantees by maintaining optimism over both agent and adversary policies.

Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form

cs.LG · 2024-08-29 · unverdicted · novelty 7.0

Presents the first algorithm to identify an ε-optimal policy in robust constrained MDPs via epigraph form and bisection search with Õ(ε^{-4}) robust policy evaluations.

citing papers explorer

Showing 2 of 2 citing papers.

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees cs.LG · 2026-04-15 · unverdicted · none · ref 23
RHC-UCRL is the first algorithm for safety-constrained RL under explicit adversarial dynamics, providing sub-linear regret and constraint violation guarantees by maintaining optimism over both agent and adversary policies.
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form cs.LG · 2024-08-29 · unverdicted · none · ref 74
Presents the first algorithm to identify an ε-optimal policy in robust constrained MDPs via epigraph form and bisection search with Õ(ε^{-4}) robust policy evaluations.

Robust Constrained Reinforcement Learning

fields

years

verdicts

representative citing papers

citing papers explorer