Scaling off-policy reinforcement learning with batch and weight normalization

Daniel Palenicek, Florian V ogt, Joe Watson, Jan Peters · 2025 · arXiv 2502.07523

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Extending Differential Temporal Difference Methods for Episodic Problems

cs.LG · 2026-05-06 · unverdicted · novelty 6.0

A generalization of differential TD extends it to episodic settings while preserving policy ordering, inheriting linear TD guarantees, and improving sample efficiency.

Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

cs.LG · 2026-04-21 · unverdicted · novelty 5.0

LoRA applied to critics in SAC and FastTD3 reduces critic loss and yields best or competitive policy performance on most evaluated tasks.

citing papers explorer

Showing 2 of 2 citing papers.

Extending Differential Temporal Difference Methods for Episodic Problems cs.LG · 2026-05-06 · unverdicted · none · ref 5
A generalization of differential TD extends it to episodic settings while preserving policy ordering, inheriting linear TD guarantees, and improving sample efficiency.
Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning cs.LG · 2026-04-21 · unverdicted · none · ref 10
LoRA applied to critics in SAC and FastTD3 reduces critic loss and yields best or competitive policy performance on most evaluated tasks.

Scaling off-policy reinforcement learning with batch and weight normalization

fields

years

verdicts

representative citing papers

citing papers explorer