Arondight: Red teaming large vision language models with auto-generated multi-modal jail- break prompts, 2024

Yi Liu, Chengjun Cai, Xiaoli Zhang, Xingliang Yuan, Cong Wang · 2024 · arXiv 2407.15050

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Single-Sample Black-Box Membership Inference Attack against Vision-Language Models via Cross-modal Semantic Alignment

cs.CV · 2026-05-17 · unverdicted · novelty 7.0

A cross-modal alignment attack achieves AUC 0.821 for single-sample black-box membership inference on VLMs such as LLaVA-1.5 by quantifying image-generated caption similarity.

citing papers explorer

Showing 1 of 1 citing paper.

Single-Sample Black-Box Membership Inference Attack against Vision-Language Models via Cross-modal Semantic Alignment cs.CV · 2026-05-17 · unverdicted · none · ref 32
A cross-modal alignment attack achieves AUC 0.821 for single-sample black-box membership inference on VLMs such as LLaVA-1.5 by quantifying image-generated caption similarity.

Arondight: Red teaming large vision language models with auto-generated multi-modal jail- break prompts, 2024

fields

years

verdicts

representative citing papers

citing papers explorer