Continuous-time q-learning for jump-diffusion models under tsallis entropy

Bo, L · 2024 · arXiv 2407.03888

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems

q-fin.CP · 2026-06-10 · unverdicted · novelty 7.0

A two-stage actor-critic RL algorithm learns deterministic equilibrium policies for general time-inconsistent control problems by combining DPG on an auxiliary time-consistent problem with fixed-point iteration on auxiliary functions.

An Actor-Critic Framework for Continuous-Time Jump-Diffusion Controls with Normalizing Flows

math.OC · 2026-04-07 · unverdicted · novelty 7.0

An actor-critic framework built on a time-inhomogeneous little q-function and conditional normalizing flows serves as a mesh-free solver for entropy-regularized jump-diffusion control problems and stochastic games.

Entropy-Regularized Reinforcement Learning for Linear-Quadratic Stackelberg Differential Games in Regime-Switching Diffusion Models

cs.LG · 2026-06-27 · unverdicted · novelty 5.0

The paper introduces an entropy-regularized RL framework deriving exploratory weakly-coupled HJBI equations and using neural networks to approximate value functions for high-dimensional LQ-SDGs under Markov regime switching.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Entropy-Regularized Reinforcement Learning for Linear-Quadratic Stackelberg Differential Games in Regime-Switching Diffusion Models cs.LG · 2026-06-27 · unverdicted · none · ref 30
The paper introduces an entropy-regularized RL framework deriving exploratory weakly-coupled HJBI equations and using neural networks to approximate value functions for high-dimensional LQ-SDGs under Markov regime switching.

Continuous-time q-learning for jump-diffusion models under tsallis entropy

fields

years

verdicts

representative citing papers

citing papers explorer