Visual attention network

Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu · 2022 · arXiv 2202.09741

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

A Large-Scale Study on the Accuracy vs Cost Trade-offs of Training and Evaluation Settings in Fine-Grained Image Recognition

cs.CV · 2026-05-18 · unverdicted · novelty 5.0

Large-scale experiments demonstrate that data-aware augmentations applied only during training allow fine-grained image models to reach high accuracy without using discriminative crops at inference, lowering costs.

Advancing Vision Transformer with Enhanced Spatial Priors

cs.CV · 2026-04-20 · unverdicted · novelty 4.0

EVT improves Vision Transformers by using Euclidean distance decay for spatial priors and simpler grouping, achieving 86.6% top-1 accuracy on ImageNet-1k.

citing papers explorer

Showing 2 of 2 citing papers.

A Large-Scale Study on the Accuracy vs Cost Trade-offs of Training and Evaluation Settings in Fine-Grained Image Recognition cs.CV · 2026-05-18 · unverdicted · none · ref 5
Large-scale experiments demonstrate that data-aware augmentations applied only during training allow fine-grained image models to reach high accuracy without using discriminative crops at inference, lowering costs.
Advancing Vision Transformer with Enhanced Spatial Priors cs.CV · 2026-04-20 · unverdicted · none · ref 55
EVT improves Vision Transformers by using Euclidean distance decay for spatial priors and simpler grouping, achieving 86.6% top-1 accuracy on ImageNet-1k.

Visual attention network

fields

years

verdicts

representative citing papers

citing papers explorer