arXiv preprint arXiv:2602.01362 , year=

Balancing Understanding, Generation in Discrete Diffusion Models , author= · arXiv 2602.01362

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models

cs.CL · 2026-05-31 · unverdicted · novelty 6.0

Presents D3IM sampler and SCOPE post-training that enable visible-token revision in masked diffusion LMs, reporting double-digit gains on GSM8K and HumanEval for LLaDA-8B.

DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs

cs.CL · 2026-05-31 · unverdicted · novelty 6.0

Adapting LLaDA-8B-Instruct via Discrete Stochastic Localization with continuous per-token Gaussian noise yields continuous denoising that achieves top ROUGE-1 on zero-shot summarization at low step budgets and adds selective noisy-state robustness.

citing papers explorer

Showing 2 of 2 citing papers.

Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models cs.CL · 2026-05-31 · unverdicted · none · ref 24
Presents D3IM sampler and SCOPE post-training that enable visible-token revision in masked diffusion LMs, reporting double-digit gains on GSM8K and HumanEval for LLaDA-8B.
DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs cs.CL · 2026-05-31 · unverdicted · none · ref 14
Adapting LLaDA-8B-Instruct via Discrete Stochastic Localization with continuous per-token Gaussian noise yields continuous denoising that achieves top ROUGE-1 on zero-shot summarization at low step budgets and adds selective noisy-state robustness.

arXiv preprint arXiv:2602.01362 , year=

fields

years

verdicts

representative citing papers

citing papers explorer