Regularized Policies are Reward Robust

Hisham Husain, Kamil Ciosek, Ryota Tomioka · 2021

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Revisiting Subgradient Dominance in Robust MDPs: Counterexamples, Hardness, and Sufficient Conditions

math.OC · 2026-04-23 · unverdicted · novelty 7.0

RMDPs lack subgradient dominance in general and admit suboptimal local minima; finding epsilon-optimal policies is NP-hard for finite transition uncertainty sets, but the dominance property holds when worst-case kernels or action-values are unique per policy.

citing papers explorer

Showing 1 of 1 citing paper.

Revisiting Subgradient Dominance in Robust MDPs: Counterexamples, Hardness, and Sufficient Conditions math.OC · 2026-04-23 · unverdicted · none · ref 21
RMDPs lack subgradient dominance in general and admit suboptimal local minima; finding epsilon-optimal policies is NP-hard for finite transition uncertainty sets, but the dominance property holds when worst-case kernels or action-values are unique per policy.

Regularized Policies are Reward Robust

fields

years

verdicts

representative citing papers

citing papers explorer