Learning transferable visual models from natural language supervision

· 2021

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

cs.CV · 2026-04-19 · unverdicted · novelty 4.0

An optimized LoRA fine-tuned CLIP model cuts accuracy degradation from 27.5% to 9.8% under text-image conflicting adversarial tests on a geometric shapes dataset while retaining 97% normal accuracy.

citing papers explorer

Showing 1 of 1 citing paper.

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability cs.CV · 2026-04-19 · unverdicted · none · ref 1
An optimized LoRA fine-tuned CLIP model cuts accuracy degradation from 27.5% to 9.8% under text-image conflicting adversarial tests on a geometric shapes dataset while retaining 97% normal accuracy.

Learning transferable visual models from natural language supervision

fields

years

verdicts

representative citing papers

citing papers explorer