Interpreting and controlling vision foundation models via text explanations

Interpreting, Controlling Vision Foundation Models via Text Explanations , author= · 2023 · arXiv 2310.10591

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

TRANSPORTER: Transferring Visual Semantics from VLM Manifolds

cs.CV · 2025-11-23 · unverdicted · novelty 7.0

TRANSPORTER generates videos from VLM logits using optimal transport to interpret model predictions on object attributes, actions, and scenes.

TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment

cs.CV · 2026-06-05 · unverdicted · novelty 6.0

TEVI applies sparse autoencoders and caption-conditioned masking to edit image embeddings, yielding better retrieval on MS COCO, Flickr, IIW, DOCCI, and RoCOCO benchmarks with larger gains on richer captions.

citing papers explorer

Showing 2 of 2 citing papers after filters.

TRANSPORTER: Transferring Visual Semantics from VLM Manifolds cs.CV · 2025-11-23 · unverdicted · none · ref 15
TRANSPORTER generates videos from VLM logits using optimal transport to interpret model predictions on object attributes, actions, and scenes.
TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment cs.CV · 2026-06-05 · unverdicted · none · ref 104
TEVI applies sparse autoencoders and caption-conditioned masking to edit image embeddings, yielding better retrieval on MS COCO, Flickr, IIW, DOCCI, and RoCOCO benchmarks with larger gains on richer captions.

Interpreting and controlling vision foundation models via text explanations

fields

years

verdicts

representative citing papers

citing papers explorer