When backdoors speak: Understanding LLM backdoor attacks through model-generated explanations

Huaizhi Ge, Yiming Li, Qifan Wang, Yongfeng Zhang, Ruixiang Tang · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors

cs.CR · 2026-04-30 · unverdicted · novelty 8.0

Backdoored model code enables deterministic, verifiable stealing of sparse secrets during local LLM fine-tuning via tensor-rule matching and gradient injection, achieving over 98% strict attack success rate while bypassing DP-SGD and auditing defenses.

citing papers explorer

Showing 1 of 1 citing paper.

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors cs.CR · 2026-04-30 · unverdicted · none · ref 8
Backdoored model code enables deterministic, verifiable stealing of sparse secrets during local LLM fine-tuning via tensor-rule matching and gradient injection, achieving over 98% strict attack success rate while bypassing DP-SGD and auditing defenses.

When backdoors speak: Understanding LLM backdoor attacks through model-generated explanations

fields

years

verdicts

representative citing papers

citing papers explorer