[2025] enhanced reasoning reliability via hierarchical advantage estimation

further scaled LLM-RL with decoupled clipping, dynamic sampling, while V APO Yue et al · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

cs.LG · 2026-04-15 · unverdicted · novelty 5.0

DiPO disentangles samples via perplexity to enable fine-grained exploration-exploitation in RLVR, using bidirectional reward allocation to improve LLM performance on mathematical reasoning and function calling.

citing papers explorer

Showing 1 of 1 citing paper.

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off cs.LG · 2026-04-15 · unverdicted · none · ref 2
DiPO disentangles samples via perplexity to enable fine-grained exploration-exploitation in RLVR, using bidirectional reward allocation to improve LLM performance on mathematical reasoning and function calling.

[2025] enhanced reasoning reliability via hierarchical advantage estimation

fields

years

verdicts

representative citing papers

citing papers explorer