arXiv preprint arXiv:2510.11620

Enhancing long chain-of-thought reasoning through multi-path plan aggregation · arXiv 2510.11620

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Stabilizing Efficient Reasoning with Step-Level Advantage Selection

cs.CL · 2026-04-27 · unverdicted · novelty 7.0

SAS stabilizes efficient LLM reasoning by step-level advantage masking, improving Pass@1 accuracy by 0.86 points and cutting reasoning length by 16.3% versus length-aware baselines.

citing papers explorer

Showing 1 of 1 citing paper.

Stabilizing Efficient Reasoning with Step-Level Advantage Selection cs.CL · 2026-04-27 · unverdicted · none · ref 3
SAS stabilizes efficient LLM reasoning by step-level advantage masking, improving Pass@1 accuracy by 0.86 points and cutting reasoning length by 16.3% versus length-aware baselines.

arXiv preprint arXiv:2510.11620

fields

years

verdicts

representative citing papers

citing papers explorer