Learning trans- ferable visual models from natural language supervision

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al · 2021

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation

cs.CV · 2026-04-21 · unverdicted · novelty 5.0

MoSA improves dynamic scene graph generation by fusing motion attributes with spatial features and aligning them cross-modally with relationship text embeddings, plus a weighted loss for rare classes, achieving top results on Action Genome.

Animalbooth: multimodal feature enhancement for animal subject personalization

cs.CV · 2025-09-20 · unverdicted · novelty 5.0

AnimalBooth introduces an Animal Net, adaptive attention module, and frequency-controlled DCT feature integration to improve identity preservation and perceptual quality in personalized animal image generation, supported by a new high-resolution dataset AnimalBench.

Motion-Guided Semantic Alignment with Negative Prompts for Zero-Shot Video Action Recognition

cs.CV · 2026-04-18 · unverdicted · novelty 4.0

Motion separation modules plus negative prompts improve CLIP-based zero-shot video action recognition on standard benchmarks.

citing papers explorer

Showing 3 of 3 citing papers.

MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation cs.CV · 2026-04-21 · unverdicted · none · ref 23
MoSA improves dynamic scene graph generation by fusing motion attributes with spatial features and aligning them cross-modally with relationship text embeddings, plus a weighted loss for rare classes, achieving top results on Action Genome.
Animalbooth: multimodal feature enhancement for animal subject personalization cs.CV · 2025-09-20 · unverdicted · none · ref 26
AnimalBooth introduces an Animal Net, adaptive attention module, and frequency-controlled DCT feature integration to improve identity preservation and perceptual quality in personalized animal image generation, supported by a new high-resolution dataset AnimalBench.
Motion-Guided Semantic Alignment with Negative Prompts for Zero-Shot Video Action Recognition cs.CV · 2026-04-18 · unverdicted · none · ref 7
Motion separation modules plus negative prompts improve CLIP-based zero-shot video action recognition on standard benchmarks.

Learning trans- ferable visual models from natural language supervision

fields

years

verdicts

representative citing papers

citing papers explorer