We run two configurations that 20 DPRM: A Plug-in Token-Ordering Module for Diffusion Language Models Figure 7.Per-rank accuracy comparison on GSM8K

performs hierarchical trajectory search (HTS) with self-verification as reward (SVF)

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models

cs.LG · 2026-04-27 · unverdicted · novelty 7.0

DPRM introduces a Doob h-transform process reward module as a plug-in for token ordering in diffusion language models, with convergence proofs and empirical gains over confidence baselines especially on hard reasoning and scientific design tasks.

citing papers explorer

Showing 1 of 1 citing paper.

DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models cs.LG · 2026-04-27 · unverdicted · none · ref 6
DPRM introduces a Doob h-transform process reward module as a plug-in for token ordering in diffusion language models, with convergence proofs and empirical gains over confidence baselines especially on hard reasoning and scientific design tasks.

We run two configurations that 20 DPRM: A Plug-in Token-Ordering Module for Diffusion Language Models Figure 7.Per-rank accuracy comparison on GSM8K

fields

years

verdicts

representative citing papers

citing papers explorer