arXiv preprint arXiv:2112.10264 , year=

Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models , author= · arXiv 2112.10264

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

read on arXiv browse 1 citing papers

representative citing papers

PhiBE-Q-Learning: Bridging Off-Policy Reinforcement Learning and Continuous-Time Control

math.OC · 2026-06-20 · unverdicted · novelty 6.0

Introduces a new Q-function definition for continuous-time RL and convergent off-policy algorithms under linear function approximation in model-based and model-free settings.

citing papers explorer

Showing 1 of 1 citing paper.

PhiBE-Q-Learning: Bridging Off-Policy Reinforcement Learning and Continuous-Time Control math.OC · 2026-06-20 · unverdicted · none · ref 40
Introduces a new Q-function definition for continuous-time RL and convergent off-policy algorithms under linear function approximation in model-based and model-free settings.

arXiv preprint arXiv:2112.10264 , year=

fields

years

verdicts

representative citing papers

citing papers explorer