Group causal policy optimization for post-training large language models.arXiv preprint arXiv:2508.05428

Gu, Z · arXiv 2508.05428

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning

cs.LG · 2026-02-06 · unverdicted · novelty 6.0

Group Causal Counterfactual Policy Optimization trains LLMs on generalizable reasoning by defining episodic rewards for counterfactual robustness and transferability then optimizing the policy with token-level advantages.

citing papers explorer

Showing 1 of 1 citing paper.

Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning cs.LG · 2026-02-06 · unverdicted · none · ref 5
Group Causal Counterfactual Policy Optimization trains LLMs on generalizable reasoning by defining episodic rewards for counterfactual robustness and transferability then optimizing the policy with token-level advantages.

Group causal policy optimization for post-training large language models.arXiv preprint arXiv:2508.05428

fields

years

verdicts

representative citing papers

citing papers explorer