arXiv preprint arXiv:2510.21473 , year=

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization , author= · arXiv 2510.21473

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Back on Track: Aligning Rewards and States for Reasoning in Diffusion Large Language Models

cs.CL · 2026-06-07 · unverdicted · novelty 6.0

PAPO improves reasoning performance in diffusion LLMs by converting sparse terminal rewards into dense step-wise credit and replaying real high-uncertainty trajectories, reporting gains up to 42.2% on Countdown.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Back on Track: Aligning Rewards and States for Reasoning in Diffusion Large Language Models cs.CL · 2026-06-07 · unverdicted · none · ref 17
PAPO improves reasoning performance in diffusion LLMs by converting sparse terminal rewards into dense step-wise credit and replaying real high-uncertainty trajectories, reporting gains up to 42.2% on Countdown.

arXiv preprint arXiv:2510.21473 , year=

fields

years

verdicts

representative citing papers

citing papers explorer