Step-kto: Optimizing mathematical reasoning through stepwise binary feedback, 2025

Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang · 2025 · arXiv 2501.10799

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

read on arXiv browse 1 citing papers

representative citing papers

Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information

cs.AI · 2026-05-27 · unverdicted · novelty 5.0

JTS trains reasoning models via supervised warm-up and missing-premise RL to make an explicit answerability commitment that triggers early termination on unanswerable inputs, raising Abstention@Detection near saturation.

citing papers explorer

Showing 1 of 1 citing paper.

Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information cs.AI · 2026-05-27 · unverdicted · none · ref 25
JTS trains reasoning models via supervised warm-up and missing-premise RL to make an explicit answerability commitment that triggers early termination on unanswerable inputs, raising Abstention@Detection near saturation.

Step-kto: Optimizing mathematical reasoning through stepwise binary feedback, 2025

fields

years

verdicts

representative citing papers

citing papers explorer