Probability inequalities for sums of bounded random variables

Wassily Hoeffding · 1963

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning

cs.LG · 2026-05-06 · unverdicted · novelty 7.0

Presents a UCBVI-style algorithm achieving optimal distributional regret bounds O(sqrt(AT log(1/δ))) in multi-armed bandits, confirming a 2020 conjecture.

citing papers explorer

Showing 1 of 1 citing paper.

Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning cs.LG · 2026-05-06 · unverdicted · none · ref 12
Presents a UCBVI-style algorithm achieving optimal distributional regret bounds O(sqrt(AT log(1/δ))) in multi-armed bandits, confirming a 2020 conjecture.

Probability inequalities for sums of bounded random variables

fields

years

verdicts

representative citing papers

citing papers explorer