A new algorithm for non-stationary contextual bandits: Efficient, optimal and parameter-free

Chen, Yifang, Lee, Chung-Wei, Luo, Haipeng, Wei, Chen-Yu · 2019

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

Offline Two-Player Zero-Sum Markov Games with KL Regularization

cs.LG · 2026-05-13 · unverdicted · novelty 8.0

KL regularization enables Õ(1/n) convergence for offline Nash equilibria in zero-sum Markov games under unilateral concentrability via the ROSE framework and SOS-MD algorithm.

Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift

cs.LG · 2026-05-08 · unverdicted · novelty 7.0

Establishes almost sure convergence rates arbitrarily close to o(n^{1-2η}) for power-law rates η in (1/2,1) and o(n^{-1}) for harmonic rates in contractive stochastic approximation with Markovian noise.

citing papers explorer

Showing 2 of 2 citing papers.

Offline Two-Player Zero-Sum Markov Games with KL Regularization cs.LG · 2026-05-13 · unverdicted · none · ref 104
KL regularization enables Õ(1/n) convergence for offline Nash equilibria in zero-sum Markov games under unilateral concentrability via the ROSE framework and SOS-MD algorithm.
Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift cs.LG · 2026-05-08 · unverdicted · none · ref 67
Establishes almost sure convergence rates arbitrarily close to o(n^{1-2η}) for power-law rates η in (1/2,1) and o(n^{-1}) for harmonic rates in contractive stochastic approximation with Markovian noise.

A new algorithm for non-stationary contextual bandits: Efficient, optimal and parameter-free

fields

years

verdicts

representative citing papers

citing papers explorer