Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.Advances in Neural Information Processing Systems, 33:5776–5788

Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou · 2020

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

cs.LG · 2026-05-08 · unverdicted · novelty 6.0

Prune-OPD dynamically prunes unreliable teacher rewards in on-policy distillation by monitoring prefix drift via top-k overlap, reducing training time 37.6-68% on AMC/AIME/HMMT while preserving or improving performance.

citing papers explorer

Showing 1 of 1 citing paper.

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning cs.LG · 2026-05-08 · unverdicted · none · ref 31
Prune-OPD dynamically prunes unreliable teacher rewards in on-policy distillation by monitoring prefix drift via top-k overlap, reducing training time 37.6-68% on AMC/AIME/HMMT while preserving or improving performance.

Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.Advances in Neural Information Processing Systems, 33:5776–5788

fields

years

verdicts

representative citing papers

citing papers explorer