Diffusion actor-critic with entropy regulator.Advances in Neural Information Processing Systems, 37:54183–54204

Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, et al · 2024

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling

cs.LG · 2026-04-10 · unverdicted · novelty 6.0

TRFP combines rectified flow models with truncation to support multimodal policies in MaxEnt RL while allowing fast one-step sampling and stable training.

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

cs.CL · 2026-02-17

citing papers explorer

Showing 1 of 1 citing paper after filters.

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens cs.CL · 2026-02-17 · unreviewed · ref 30

Diffusion actor-critic with entropy regulator.Advances in Neural Information Processing Systems, 37:54183–54204

fields

years

verdicts

representative citing papers

citing papers explorer