Clip-adapter: Better vision-language models with feature adapters

· 2024 · DOI 10.1007/s11263-023-01891-x

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning

cs.CV · 2026-04-16 · unverdicted · novelty 6.0

AIM applies modality-specific masks to balance stability and plasticity in asymmetric VLMs, achieving SOTA average performance and reduced forgetting on continual VQA v2 and GQA while preserving generalization to novel compositions.

Efficient Adversarial Training via Criticality-Aware Fine-Tuning

cs.CV · 2026-04-14 · unverdicted · novelty 6.0

CAAT selects critical parameters for adversarial robustness in ViTs and applies PEFT to tune only those, yielding a 4.3% robustness drop versus full AT while using ~6% of parameters.

citing papers explorer

Showing 2 of 2 citing papers.

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning cs.CV · 2026-04-16 · unverdicted · none · ref 14
AIM applies modality-specific masks to balance stability and plasticity in asymmetric VLMs, achieving SOTA average performance and reduced forgetting on continual VQA v2 and GQA while preserving generalization to novel compositions.
Efficient Adversarial Training via Criticality-Aware Fine-Tuning cs.CV · 2026-04-14 · unverdicted · none · ref 35
CAAT selects critical parameters for adversarial robustness in ViTs and applies PEFT to tune only those, yielding a 4.3% robustness drop versus full AT while using ~6% of parameters.

Clip-adapter: Better vision-language models with feature adapters

fields

years

verdicts

representative citing papers

citing papers explorer