From robustness to improved generalization and calibration in pre-trained language models.Transactions of the Association for Computational Linguistics, 13:264–280, 2025

Josip Juki´c, Jan Šnajder · 2025 · DOI 10.1162/tacl_a_00739

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

When Attribution Patching Lies: Diagnosis and a Second-Order Correction

cs.LG · 2026-06-05 · unverdicted · novelty 6.0

Dominant error in attribution patching arises from downstream non-linearities; a single HVP correction removes the leading error term and matches Integrated Gradients accuracy at lower cost across 124M-9B models.

citing papers explorer

Showing 1 of 1 citing paper.

When Attribution Patching Lies: Diagnosis and a Second-Order Correction cs.LG · 2026-06-05 · unverdicted · none · ref 33
Dominant error in attribution patching arises from downstream non-linearities; a single HVP correction removes the leading error term and matches Integrated Gradients accuracy at lower cost across 124M-9B models.

From robustness to improved generalization and calibration in pre-trained language models.Transactions of the Association for Computational Linguistics, 13:264–280, 2025

fields

years

verdicts

representative citing papers

citing papers explorer