Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation

Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

cs.CV · 2025-03-10 · unverdicted · novelty 7.0

AlphaDrive uses GRPO-based RL rewards and two-stage SFT+RL training on VLMs to improve autonomous driving planning performance and efficiency while producing emergent multimodal capabilities.

Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition

cs.CV · 2025-04-28 · unverdicted · novelty 6.0

Masked Language Prompting masks selected words in reference captions and leverages LLMs to produce diverse, semantically coherent completions for style-consistent generative image augmentation without fine-tuning.

citing papers explorer

Showing 2 of 2 citing papers.

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning cs.CV · 2025-03-10 · unverdicted · none · ref 20
AlphaDrive uses GRPO-based RL rewards and two-stage SFT+RL training on VLMs to improve autonomous driving planning performance and efficiency while producing emergent multimodal capabilities.
Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition cs.CV · 2025-04-28 · unverdicted · none · ref 30
Masked Language Prompting masks selected words in reference captions and leverages LLMs to produce diverse, semantically coherent completions for style-consistent generative image augmentation without fine-tuning.

Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation

fields

years

verdicts

representative citing papers

citing papers explorer