Revisiting backdoor attacks on llms: A stealthy and practical poisoning framework via harmless inputs

· 2025 · arXiv 2505.17601

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs

cs.CR · 2026-05-20 · conditional · novelty 7.0

Compilation optimizations can be exploited to create stealthy backdoors in LLMs that remain dormant without optimization but achieve ~90% attack success while preserving clean accuracy near 100%.

Prompt2Fingerprint: Plug-and-Play LLM Fingerprinting via Text-to-Weight Generation

cs.CR · 2026-05-18 · unverdicted · novelty 6.0

P2F generates low-rank parameter increments for LLM fingerprinting directly from textual descriptions in a single forward pass.

BackFlush: Knowledge-Free Backdoor Detection and Elimination with Watermark Preservation in Large Language Models

cs.CR · 2026-04-15 · unverdicted · novelty 6.0

BackFlush detects backdoors via susceptibility amplification and eliminates them with RoPE unlearning to reach 1% ASR and 99% clean accuracy while preserving watermarks.

citing papers explorer

Showing 3 of 3 citing papers.

Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs cs.CR · 2026-05-20 · conditional · none · ref 39
Compilation optimizations can be exploited to create stealthy backdoors in LLMs that remain dormant without optimization but achieve ~90% attack success while preserving clean accuracy near 100%.
Prompt2Fingerprint: Plug-and-Play LLM Fingerprinting via Text-to-Weight Generation cs.CR · 2026-05-18 · unverdicted · none · ref 9
P2F generates low-rank parameter increments for LLM fingerprinting directly from textual descriptions in a single forward pass.
BackFlush: Knowledge-Free Backdoor Detection and Elimination with Watermark Preservation in Large Language Models cs.CR · 2026-04-15 · unverdicted · none · ref 22
BackFlush detects backdoors via susceptibility amplification and eliminates them with RoPE unlearning to reach 1% ASR and 99% clean accuracy while preserving watermarks.

Revisiting backdoor attacks on llms: A stealthy and practical poisoning framework via harmless inputs

fields

years

verdicts

representative citing papers

citing papers explorer