Bert: Pre-training of deep bidirectional trans- formers for language understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova · 2019

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

Continual Distillation of Teachers from Different Domains

cs.LG · 2026-04-10 · conditional · novelty 6.0

SE2D stabilizes continual distillation across heterogeneous teachers by preserving logits on external unlabeled data to mitigate unseen knowledge forgetting.

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

cs.CL · 2026-03-03 · unverdicted · novelty 6.0

ACE-Merging estimates task input covariances from parameter differences to enable closed-form data-free merging that reduces interference and outperforms prior baselines on vision and language tasks.

citing papers explorer

Showing 2 of 2 citing papers.

Continual Distillation of Teachers from Different Domains cs.LG · 2026-04-10 · conditional · none · ref 9
SE2D stabilizes continual distillation across heterogeneous teachers by preserving logits on external unlabeled data to mitigate unseen knowledge forgetting.
ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation cs.CL · 2026-03-03 · unverdicted · none · ref 2
ACE-Merging estimates task input covariances from parameter differences to enable closed-form data-free merging that reduces interference and outperforms prior baselines on vision and language tasks.

Bert: Pre-training of deep bidirectional trans- formers for language understanding

fields

years

verdicts

representative citing papers

citing papers explorer