Prefix Probing: Lightweight Harmful Content Detection for Large Language Models, December 2025

Jirui Yang, Hengqi Guo, Zhihui Lu, Yi Zhao, Yuansen Zhang, Shijing Hu, Qiang Duan, Yinggui Wang, Tao Wei · 2025 · arXiv 2512.16650

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

read on arXiv browse 1 citing papers

representative citing papers

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue

cs.CL · 2026-05-13 · unverdicted · novelty 3.0

AERIC uses a 387-parameter head on LLM hidden states for same-pass anticipatory detection of implicit harm, reporting AUROC gains on DiaSafety and Harmful Advice plus low-latency trigger rates on HarmBench and SocialHarmBench.

citing papers explorer

Showing 1 of 1 citing paper.

AERIC: Anticipatory Hidden-State Monitoring for Implicit Harmful Dialogue cs.CL · 2026-05-13 · unverdicted · none · ref 13
AERIC uses a 387-parameter head on LLM hidden states for same-pass anticipatory detection of implicit harm, reporting AUROC gains on DiaSafety and Harmful Advice plus low-latency trigger rates on HarmBench and SocialHarmBench.

Prefix Probing: Lightweight Harmful Content Detection for Large Language Models, December 2025

fields

years

verdicts

representative citing papers

citing papers explorer