Real-world reinforcement learning from suboptimal interventions

Zhao, Y · 2025 · arXiv 2512.24288

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance

cs.RO · 2026-05-28 · unverdicted · novelty 7.0

CGPO integrates training-free critic guidance into diffusion denoising to produce high-Q actions as regression targets, yielding SOTA results on MuJoCo locomotion and successful Franka arm grasping.

OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

cs.RO · 2026-05-15

citing papers explorer

Showing 2 of 2 citing papers.

Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance cs.RO · 2026-05-28 · unverdicted · none · ref 17
CGPO integrates training-free critic guidance into diffusion denoising to produce high-Q actions as regression targets, yielding SOTA results on MuJoCo locomotion and successful Franka arm grasping.
OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation cs.RO · 2026-05-15 · unreviewed · ref 18

Real-world reinforcement learning from suboptimal interventions

fields

years

verdicts

representative citing papers

citing papers explorer