InProceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 10542– 10560

Defending against alignment-breaking attacks via robustly aligned llm · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents

cs.CL · 2026-04-07 · unverdicted · novelty 6.0

JailAgent red-teams LLM agents by hijacking reasoning trajectories and tightening constraints without prompt changes, claiming strong cross-model and cross-scenario performance.

citing papers explorer

Showing 1 of 1 citing paper.

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents cs.CL · 2026-04-07 · unverdicted · none · ref 1
JailAgent red-teams LLM agents by hijacking reasoning trajectories and tightening constraints without prompt changes, claiming strong cross-model and cross-scenario performance.

InProceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 10542– 10560

fields

years

verdicts

representative citing papers

citing papers explorer