The Non-Stochastic Multi-Armed Bandit Problem.SIAM J

Auer, P · 2003

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Entropic Regularization of Markov Decision Processes

cs.LG · 2019-07-06 · unverdicted · novelty 6.0

Using alpha-divergences for entropic regularization in MDPs unifies actor-critic architectures via closed-form policy improvement and provides asymptotic analysis on standard RL problems.

citing papers explorer

Showing 1 of 1 citing paper.

Entropic Regularization of Markov Decision Processes cs.LG · 2019-07-06 · unverdicted · none · ref 34
Using alpha-divergences for entropic regularization in MDPs unifies actor-critic architectures via closed-form policy improvement and provides asymptotic analysis on standard RL problems.

The Non-Stochastic Multi-Armed Bandit Problem.SIAM J

fields

years

verdicts

representative citing papers

citing papers explorer