T−1X k=t+1 g(xk, π(xk)) # We can directly apply Corollary 2 of Sukhija et al. [62] to obtain Jg(π, f ′)−J g(π, f) =E τ f π

Tianhe Yu, Garrett Thomas, Lantao Yu, Stefano Ermon, James Zou, Sergey Levine, Chelsea Finn, Tengyu Ma · 2020

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Sampling-Based Safe Reinforcement Learning

cs.LG · 2026-05-19 · conditional · novelty 6.0

SBSRL approximates worst-case safety optimization over uncertain dynamics via finite sampling, adds epistemic-uncertainty-constrained exploration, and supplies high-probability safety guarantees plus finite-time sample-complexity bounds for near-optimal policies.

citing papers explorer

Showing 1 of 1 citing paper.

Sampling-Based Safe Reinforcement Learning cs.LG · 2026-05-19 · conditional · none · ref 71
SBSRL approximates worst-case safety optimization over uncertain dynamics via finite sampling, adds epistemic-uncertainty-constrained exploration, and supplies high-probability safety guarantees plus finite-time sample-complexity bounds for near-optimal policies.

T−1X k=t+1 g(xk, π(xk)) # We can directly apply Corollary 2 of Sukhija et al. [62] to obtain Jg(π, f ′)−J g(π, f) =E τ f π

fields

years

verdicts

representative citing papers

citing papers explorer