Graph reinforcement learning for combinatorial optimization: A survey and unifying perspective,

· 2024 · arXiv 2404.06492

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Baseline-Free Policy Optimization for Neural Combinatorial Optimization

cs.LG · 2026-06-09 · conditional · novelty 6.0

GRPO matches POMO solution quality within 2% on TSP/CVRP while avoiding REINFORCE training collapse on TSP-100 without needing a rollout baseline.

Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning

cs.LG · 2026-06-02 · conditional · novelty 5.0

Tabular RL on a Non-Markovian Rewards Decision Process formulation matches deep RL performance on real metro expansion in Xi'an and Amsterdam while cutting episodes by 18x and carbon emissions by 12x on average.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Baseline-Free Policy Optimization for Neural Combinatorial Optimization cs.LG · 2026-06-09 · conditional · none · ref 8
GRPO matches POMO solution quality within 2% on TSP/CVRP while avoiding REINFORCE training collapse on TSP-100 without needing a rollout baseline.
Smart Transportation Without Neurons -- Fair Metro Network Expansion with Tabular Reinforcement Learning cs.LG · 2026-06-02 · conditional · none · ref 31
Tabular RL on a Non-Markovian Rewards Decision Process formulation matches deep RL performance on real metro expansion in Xi'an and Amsterdam while cutting episodes by 18x and carbon emissions by 12x on average.

Graph reinforcement learning for combinatorial optimization: A survey and unifying perspective,

fields

years

verdicts

representative citing papers

citing papers explorer