For each intent-response pair, Beaver-Dam-7B can output a rating of the jailbreak quality

as an automatic LLM judge to determine whether a jailbreak is successful · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

New Wide-Net-Casting Jailbreak Attacks Risk Large Models

cs.CR · 2026-05-16 · unverdicted · novelty 5.0

The paper demonstrates that a tailored jailbreak method for querying groups of large models can achieve up to 100% success rate in some experiments on unprotected models, revealing overlooked multi-model safety risks.

citing papers explorer

Showing 1 of 1 citing paper.

New Wide-Net-Casting Jailbreak Attacks Risk Large Models cs.CR · 2026-05-16 · unverdicted · none · ref 46
The paper demonstrates that a tailored jailbreak method for querying groups of large models can achieve up to 100% success rate in some experiments on unprotected models, revealing overlooked multi-model safety risks.

For each intent-response pair, Beaver-Dam-7B can output a rating of the jailbreak quality

fields

years

verdicts

representative citing papers

citing papers explorer