A survey on self-play methods in reinforcement learning

Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Wenhao Tang, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, et al · 2024 · arXiv 2408.01072

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

read on arXiv browse 4 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

cs.LG · 2026-03-07 · unverdicted · novelty 7.0

NePPO learns a player-independent potential function via a novel objective whose minimization yields an approximate Nash equilibrium for general-sum multi-agent games.

Tournament Informed Adversarial Quality Diversity

cs.NE · 2026-01-27 · unverdicted · novelty 6.0

Tournament-informed task selection in adversarial QD produces higher quality and diversity in coevolved solutions across Pong, cat-and-mouse, and pursuers-evaders games.

Building Better Environments for Autonomous Cyber Defence

cs.CR · 2026-04-09 · conditional · novelty 5.0

A workshop synthesis provides a decomposition framework for RL-cyber environment interfaces and best-practice guidelines for training and evaluating autonomous cyber defence agents.

EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation

cs.AI · 2026-04-13 · unverdicted · novelty 4.0

EvoNash-MARL achieves 19.6% annualized returns on equity allocation from 2014-2024 versus 11.7% for SPY, with evidence of robustness under constraints but no strong statistical superiority per WRC and SPA-lite tests.

citing papers explorer

Showing 4 of 4 citing papers.

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning cs.LG · 2026-03-07 · unverdicted · none · ref 18
NePPO learns a player-independent potential function via a novel objective whose minimization yields an approximate Nash equilibrium for general-sum multi-agent games.
Tournament Informed Adversarial Quality Diversity cs.NE · 2026-01-27 · unverdicted · none · ref 40
Tournament-informed task selection in adversarial QD produces higher quality and diversity in coevolved solutions across Pong, cat-and-mouse, and pursuers-evaders games.
Building Better Environments for Autonomous Cyber Defence cs.CR · 2026-04-09 · conditional · none · ref 73
A workshop synthesis provides a decomposition framework for RL-cyber environment interfaces and best-practice guidelines for training and evaluating autonomous cyber defence agents.
EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation cs.AI · 2026-04-13 · unverdicted · none · ref 23
EvoNash-MARL achieves 19.6% annualized returns on equity allocation from 2014-2024 versus 11.7% for SPY, with evidence of robustness under constraints but no strong statistical superiority per WRC and SPA-lite tests.

A survey on self-play methods in reinforcement learning

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer