Instead, we utilize max-PPL reward and max-PPL penalty as training reward, respectively, and recorded the changes in model entropy

as the training set, discarding the verification reward · 2015

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

cs.LG · 2026-04-15 · unverdicted · novelty 5.0

DiPO disentangles samples via perplexity to enable fine-grained exploration-exploitation in RLVR, using bidirectional reward allocation to improve LLM performance on mathematical reasoning and function calling.

citing papers explorer

Showing 1 of 1 citing paper.

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off cs.LG · 2026-04-15 · unverdicted · none · ref 1
DiPO disentangles samples via perplexity to enable fine-grained exploration-exploitation in RLVR, using bidirectional reward allocation to improve LLM performance on mathematical reasoning and function calling.

Instead, we utilize max-PPL reward and max-PPL penalty as training reward, respectively, and recorded the changes in model entropy

fields

years

verdicts

representative citing papers

citing papers explorer