X-detr: A versatile architecture for instance-wise vision-language tasks

Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu, Rahul Bhotika, Stefano Soatto · 2022 · arXiv 2204.05626

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection

cs.CV · 2026-04-03 · unverdicted · novelty 6.0 · 2 refs

DeCo-DETR builds hierarchical semantic prototypes offline and uses decoupled training streams to deliver competitive zero-shot open-vocabulary detection with improved inference speed.

DetailCLIP: Injecting Image Details into CLIP's Feature Space

cs.CV · 2022-08-31 · unverdicted · novelty 5.0

A patch-based fusion method extends CLIP to high-resolution images by retaining multi-scale details for improved class-prompted retrieval.

citing papers explorer

Showing 2 of 2 citing papers.

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection cs.CV · 2026-04-03 · unverdicted · none · ref 1 · 2 links
DeCo-DETR builds hierarchical semantic prototypes offline and uses decoupled training streams to deliver competitive zero-shot open-vocabulary detection with improved inference speed.
DetailCLIP: Injecting Image Details into CLIP's Feature Space cs.CV · 2022-08-31 · unverdicted · none · ref 3
A patch-based fusion method extends CLIP to high-resolution images by retaining multi-scale details for improved class-prompted retrieval.

X-detr: A versatile architecture for instance-wise vision-language tasks

fields

years

verdicts

representative citing papers

citing papers explorer