Zero-shot video question answering via frozen bidirectional language models

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid · arXiv 2206.08155

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

cs.CV · 2023-04-20 · conditional · novelty 6.0

MiniGPT-4 shows that aligning a frozen vision encoder to Vicuna via one projection layer plus a second-stage detailed-description fine-tune produces GPT-4-like vision-language abilities including detailed captions, creative writing, and instruction following.

citing papers explorer

Showing 1 of 1 citing paper.

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models cs.CV · 2023-04-20 · conditional · none · ref 21
MiniGPT-4 shows that aligning a frozen vision encoder to Vicuna via one projection layer plus a second-stage detailed-description fine-tune produces GPT-4-like vision-language abilities including detailed captions, creative writing, and instruction following.

Zero-shot video question answering via frozen bidirectional language models

fields

years

verdicts

representative citing papers

citing papers explorer