Aligning large language models via fine-grained supervision.arXiv preprint arXiv:2406.02756, 2024a

Dehong Xu, Liang Qiu, Minseok Kim, Faisal Ladhak, Jaeyoung Do · arXiv 2406.02756

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

SAID: Safety-Aware Intent Defense via Prefix Probing for Large Language Models

cs.CR · 2025-10-23 · unverdicted · novelty 5.0

SAID is a training-free defense that distills obfuscated prompts into intents, probes them with safety prefixes, and rejects if any intent is unsafe, claiming SOTA jailbreak resistance on open LLMs.

citing papers explorer

Showing 1 of 1 citing paper.

SAID: Safety-Aware Intent Defense via Prefix Probing for Large Language Models cs.CR · 2025-10-23 · unverdicted · none · ref 21
SAID is a training-free defense that distills obfuscated prompts into intents, probes them with safety prefixes, and rejects if any intent is unsafe, claiming SOTA jailbreak resistance on open LLMs.

Aligning large language models via fine-grained supervision.arXiv preprint arXiv:2406.02756, 2024a

fields

years

verdicts

representative citing papers

citing papers explorer