Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.Advances in Neural Information Processing Systems, 33:5776–5788

Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou · 2020

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

citation-role summary

other 1

citation-polarity summary

unclear 1

representative citing papers

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

cs.LG · 2026-05-08 · unverdicted · novelty 5.0

Prune-OPD detects prefix drift via top-k overlap and dynamically prunes unreliable teacher rewards in OPD, cutting training time 37.6-68% on AMC/AIME/HMMT while preserving performance.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning cs.LG · 2026-05-08 · unverdicted · none · ref 31
Prune-OPD detects prefix drift via top-k overlap and dynamically prunes unreliable teacher rewards in OPD, cutting training time 37.6-68% on AMC/AIME/HMMT while preserving performance.

Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.Advances in Neural Information Processing Systems, 33:5776–5788

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer