Rethinking supervised fine-tuning: Em- phasizing key answer tokens for improved llm accuracy.arXiv preprint arXiv:2512.21017, 2025

Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou · 2025 · arXiv 2512.21017

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

cs.LG · 2026-05-11 · unverdicted · novelty 7.0

ReCrit frames critic interaction as a correctness-transition problem and uses quadrant-based RL rewards to improve LLM performance on scientific reasoning benchmarks by rewarding corrections and robustness while penalizing sycophancy.

citing papers explorer

Showing 1 of 1 citing paper.

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning cs.LG · 2026-05-11 · unverdicted · none · ref 31
ReCrit frames critic interaction as a correctness-transition problem and uses quadrant-based RL rewards to improve LLM performance on scientific reasoning benchmarks by rewarding corrections and robustness while penalizing sycophancy.

Rethinking supervised fine-tuning: Em- phasizing key answer tokens for improved llm accuracy.arXiv preprint arXiv:2512.21017, 2025

fields

years

verdicts

representative citing papers

citing papers explorer