Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson

· 2018 · DOI 10.1609/aaai.v32i1.11794

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

open at publisher browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Relational Multi-Agent Reinforcement Learning for Dynamic Pricing in High-Speed Railway Markets

cs.LG · 2026-07-06 · conditional · novelty 6.0

An entity-graph MARL framework (RACHE) using R-GCN message passing and attention pooling over train-service nodes outperforms baseline algorithms in railway pricing revenue across two simulated market scenarios.

TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning

cs.AI · 2026-05-27 · unverdicted · novelty 6.0

TRACER combines a controller-regret layer using regret matching for speak/skip decisions with a generation-credit layer using GSPO rewards to enable learned collaboration in multi-LLM reasoning.

COSAC: Counterfactual Credit Assignment in Sequential Cooperative Teams

cs.LG · 2026-04-20 · unverdicted · novelty 6.0 · 2 refs

COSAC enables scalable per-agent policy gradients in sequential cooperative teams via ridge regression on additive reward decomposition and counterfactual advantages from fictitious policy continuations, extending aristocrat utility with controlled bias-variance bounds.

citing papers explorer

Showing 3 of 3 citing papers.

Relational Multi-Agent Reinforcement Learning for Dynamic Pricing in High-Speed Railway Markets cs.LG · 2026-07-06 · conditional · none · ref 10
An entity-graph MARL framework (RACHE) using R-GCN message passing and attention pooling over train-service nodes outperforms baseline algorithms in railway pricing revenue across two simulated market scenarios.
TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning cs.AI · 2026-05-27 · unverdicted · none · ref 4
TRACER combines a controller-regret layer using regret matching for speak/skip decisions with a generation-credit layer using GSPO rewards to enable learned collaboration in multi-LLM reasoning.
COSAC: Counterfactual Credit Assignment in Sequential Cooperative Teams cs.LG · 2026-04-20 · unverdicted · none · ref 4 · 2 links
COSAC enables scalable per-agent policy gradients in sequential cooperative teams via ridge regression on additive reward decomposition and counterfactual advantages from fictitious policy continuations, extending aristocrat utility with controlled bias-variance bounds.

Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer