Why does self-distillation (sometimes) degrade the reasoning capability of llms?

Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang · 2026

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

citation-role summary

other 1

citation-polarity summary

unclear 1

representative citing papers

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

cs.LG · 2026-05-08 · unverdicted · novelty 6.0

Prune-OPD dynamically prunes unreliable teacher rewards in on-policy distillation by monitoring prefix drift via top-k overlap, reducing training time 37.6-68% on AMC/AIME/HMMT while preserving or improving performance.

citing papers explorer

Showing 1 of 1 citing paper.

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning cs.LG · 2026-05-08 · unverdicted · none · ref 17
Prune-OPD dynamically prunes unreliable teacher rewards in on-policy distillation by monitoring prefix drift via top-k overlap, reducing training time 37.6-68% on AMC/AIME/HMMT while preserving or improving performance.

Why does self-distillation (sometimes) degrade the reasoning capability of llms?

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer