CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

· 2021

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Advancing Vision Transformer with Enhanced Spatial Priors

cs.CV · 2026-04-20 · unverdicted · novelty 4.0

EVT improves Vision Transformers by using Euclidean distance decay for spatial priors and simpler grouping, achieving 86.6% top-1 accuracy on ImageNet-1k.

citing papers explorer

Showing 1 of 1 citing paper.

Advancing Vision Transformer with Enhanced Spatial Priors cs.CV · 2026-04-20 · unverdicted · none · ref 64
EVT improves Vision Transformers by using Euclidean distance decay for spatial priors and simpler grouping, achieving 86.6% top-1 accuracy on ImageNet-1k.

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

fields

years

verdicts

representative citing papers

citing papers explorer