An image is worth 1000 lies: Adversarial transferability across prompts on vision-language models

· 2024 · arXiv 2403.09766

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

representative citing papers

Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction

cs.CV · 2026-06-09 · unverdicted · novelty 7.0

DeBias-Attack corrects surrogate-specific bias in adversarial gradients for VLP models by subtracting the projection from a reference branch optimized on weak-semantic images.

A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation

cs.CR · 2026-05-15 · unverdicted · novelty 7.0

CrossMPI steers both visual and textual interpretations in LVLMs through image-only perturbations by optimizing in hidden-state space at selected middle layers with distance-based budget allocation.

Jailbreaking Frontier Foundation Models Through Intention Deception

cs.CR · 2026-04-27 · unverdicted · novelty 7.0

A multi-turn intention-deception jailbreak achieves high success on GPT-5 and Claude models while exposing para-jailbreaking where models leak harmful information without direct refusal.

JECA^2: Judgment-Explanation Consistent Adversarial Attack against Forensic Vision-Language Models

cs.CV · 2026-05-27 · unverdicted · novelty 6.0

JECA^2 is a new white-box attack method using Grad-CAM-guided perturbations and prompt embedding optimization to achieve judgment-explanation consistent adversarial attacks on forensic VLMs.

citing papers explorer

Showing 4 of 4 citing papers after filters.

Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction cs.CV · 2026-06-09 · unverdicted · none · ref 11
DeBias-Attack corrects surrogate-specific bias in adversarial gradients for VLP models by subtracting the projection from a reference branch optimized on weak-semantic images.
A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation cs.CR · 2026-05-15 · unverdicted · none · ref 29
CrossMPI steers both visual and textual interpretations in LVLMs through image-only perturbations by optimizing in hidden-state space at selected middle layers with distance-based budget allocation.
Jailbreaking Frontier Foundation Models Through Intention Deception cs.CR · 2026-04-27 · unverdicted · none · ref 10
A multi-turn intention-deception jailbreak achieves high success on GPT-5 and Claude models while exposing para-jailbreaking where models leak harmful information without direct refusal.
JECA^2: Judgment-Explanation Consistent Adversarial Attack against Forensic Vision-Language Models cs.CV · 2026-05-27 · unverdicted · none · ref 19
JECA^2 is a new white-box attack method using Grad-CAM-guided perturbations and prompt embedding optimization to achieve judgment-explanation consistent adversarial attacks on forensic VLMs.

An image is worth 1000 lies: Adversarial transferability across prompts on vision-language models

fields

years

verdicts

representative citing papers

citing papers explorer