Exploiting the index gradients for optimization-based jailbreaking on large language models.arXiv preprint arXiv:2412.08615, 2024

Jiahui Li, Yongchang Hao, Haoyu Xu, Xing Wang, Yu Hong · 2024 · arXiv 2412.08615

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Persona Attack: Incremental Memory Injection Jailbreak Attack against Large Language Models

cs.CR · 2026-05-29 · unverdicted · novelty 7.0

Persona Attack uses step-by-step memory injections to achieve up to 95% success in making LLMs ignore safety alignments, with effectiveness depending on model memory and instruction combinations.

citing papers explorer

Showing 1 of 1 citing paper.

Persona Attack: Incremental Memory Injection Jailbreak Attack against Large Language Models cs.CR · 2026-05-29 · unverdicted · none · ref 10
Persona Attack uses step-by-step memory injections to achieve up to 95% success in making LLMs ignore safety alignments, with effectiveness depending on model memory and instruction combinations.

Exploiting the index gradients for optimization-based jailbreaking on large language models.arXiv preprint arXiv:2412.08615, 2024

fields

years

verdicts

representative citing papers

citing papers explorer