Debiasing Pretrained Text Encoders by Paying Attention to Paying Attention

Gaci, Yacine, Benatallah, Boualem, Casati, Fabio, Benabdeslem, Khalid · 2022 · DOI 10.18653/v1/2022.emnlp-main.651

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Modeling Implicit Conflict Monitoring Mechanisms against Stereotypes in LLMs

cs.SI · 2026-05-10 · unverdicted · novelty 6.0

LLMs contain identifiable COCO neurons that enable implicit self-correction against stereotypes; targeted editing of these neurons improves fairness and robustness to jailbreaks while preserving generation quality.

citing papers explorer

Showing 1 of 1 citing paper.

Modeling Implicit Conflict Monitoring Mechanisms against Stereotypes in LLMs cs.SI · 2026-05-10 · unverdicted · none · ref 50
LLMs contain identifiable COCO neurons that enable implicit self-correction against stereotypes; targeted editing of these neurons improves fairness and robustness to jailbreaks while preserving generation quality.

Debiasing Pretrained Text Encoders by Paying Attention to Paying Attention

fields

years

verdicts

representative citing papers

citing papers explorer