CAREF: Calibration-Aware Regularization for Explanation Faithfulness Without Rationale Supervision

Naphat Nithisopa; Teerapong Panboonyuen

arxiv: 2605.27835 · v2 · pith:RIRMYLTPnew · submitted 2026-05-27 · 💻 cs.LG · cs.CL

CAREF: Calibration-Aware Regularization for Explanation Faithfulness Without Rationale Supervision

Naphat Nithisopa , Teerapong Panboonyuen This is my paper

classification 💻 cs.LG cs.CL

keywords carefexplanationregularizationcalibration-awarefaithfulnessaccuracyfine-tuningrationale

0 comments

read the original abstract

We introduce CAREF, a parameter-efficient fine-tuning framework that jointly optimizes predictive accuracy and explanation faithfulness via calibration-aware regularization. At its core, CAREF couples entropy-based calibration with token-level sparsity control through a single unified loss, the Calibration-Aware Regularization for Explanation Faithfulness (LSCED), without requiring rationale supervision. Evaluated on four NLE benchmarks (COS-E, ECQA, ComVE, e-SNLI) with Flan-T5, our lightweight CAREF-AQ variant attains the best average accuracy (89.04) and explanation alignment (81.00 nBERT) using only 6.43% of trainable parameters, outperforming LoRA and AdaLoRA. To our knowledge, CAREF is the first method to unify entropy and sparsity regularization in a single training objective for interpretable LLM fine-tuning.

This paper has not been read by Pith yet.

CAREF: Calibration-Aware Regularization for Explanation Faithfulness Without Rationale Supervision

discussion (0)