Mist: Jail- breaking black-box large language models via iterative semantic tuning

Muyang Zheng, Yuanzhi Yao, Changting Lin, Caihong Kai, Yanxiang Chen, Zhiquan Liu · 2025 · arXiv 2506.16792

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

cs.LG · 2026-05-06 · unverdicted · novelty 7.0

Greedy random search recovers token sequences that elicit harmful response prefixes from LLMs without meaningful instructions, showing natural backdoors are present yet require more effort than semantic attacks.

citing papers explorer

Showing 1 of 1 citing paper.

On the Hardness of Junking LLMs cs.LG · 2026-05-06 · unverdicted · none · ref 62
Greedy random search recovers token sequences that elicit harmful response prefixes from LLMs without meaningful instructions, showing natural backdoors are present yet require more effort than semantic attacks.

Mist: Jail- breaking black-box large language models via iterative semantic tuning

fields

years

verdicts

representative citing papers

citing papers explorer