arXiv preprint arXiv:2104.06159 , year=

Muesli: Combining improvements in policy optimization , author= · arXiv 2104.06159

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation

cs.LG · 2026-05-18 · unverdicted · novelty 7.0

RAT reformulates regularized natural policy gradients as vanilla gradients with a transformed advantage, computed efficiently via randomized block Kaczmarz iterations on on-policy data.

A Generalist Agent

cs.AI · 2022-05-12 · accept · novelty 7.0

Gato is a multi-modal, multi-task, multi-embodiment generalist policy using one transformer network to handle text, vision, games, and robotics tasks.

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL

cs.LG · 2026-05-06

citing papers explorer

Showing 1 of 1 citing paper after filters.

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL cs.LG · 2026-05-06 · unreviewed · ref 4

arXiv preprint arXiv:2104.06159 , year=

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer