Imagenet: A large-scale hierarchical image database

Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei · 2009

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

browse 4 citing papers

representative citing papers

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

cs.CV · 2021-03-25 · accept · novelty 8.0

Swin Transformer reaches 87.3% ImageNet accuracy and sets new records on COCO detection and ADE20K segmentation by replacing global self-attention with shifted-window local attention inside a hierarchical pyramid.

DAPS++: Rethinking Diffusion Inverse Problems with Decoupled Posterior Annealing

cs.AI · 2025-11-21 · unverdicted · novelty 7.0

DAPS++ decouples diffusion-model initialization from measurement-consistency refinement to solve inverse problems with fewer steps while preserving reconstruction quality.

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

cs.CV · 2025-03-18 · unverdicted · novelty 7.0

DualToken disentangles semantics and appearance via separate codebooks in one tokenizer, reporting 0.25 rFID, 82% ImageNet zero-shot accuracy, and gains over VILA-U on understanding and generation benchmarks.

LPT: Less-overfitting Prompt Tuning for Vision-Language Model

cs.CV · 2024-10-14 · unverdicted · novelty 5.0

LPT reduces overfitting during prompt tuning of VLMs by CLIP-based foreground filtering, a structural preservation constraint aligning features to frozen CLIP, and a hierarchical logit constraint at the output, improving generalization on base-to-novel, cross-dataset, and domain-generalization tasks

citing papers explorer

Showing 4 of 4 citing papers.

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows cs.CV · 2021-03-25 · accept · none · ref 19
Swin Transformer reaches 87.3% ImageNet accuracy and sets new records on COCO detection and ADE20K segmentation by replacing global self-attention with shifted-window local attention inside a hierarchical pyramid.
DAPS++: Rethinking Diffusion Inverse Problems with Decoupled Posterior Annealing cs.AI · 2025-11-21 · unverdicted · none · ref 6
DAPS++ decouples diffusion-model initialization from measurement-consistency refinement to solve inverse problems with fewer steps while preserving reconstruction quality.
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies cs.CV · 2025-03-18 · unverdicted · none · ref 8
DualToken disentangles semantics and appearance via separate codebooks in one tokenizer, reporting 0.25 rFID, 82% ImageNet zero-shot accuracy, and gains over VILA-U on understanding and generation benchmarks.
LPT: Less-overfitting Prompt Tuning for Vision-Language Model cs.CV · 2024-10-14 · unverdicted · none · ref 5
LPT reduces overfitting during prompt tuning of VLMs by CLIP-based foreground filtering, a structural preservation constraint aligning features to frozen CLIP, and a hierarchical logit constraint at the output, improving generalization on base-to-novel, cross-dataset, and domain-generalization tasks

Imagenet: A large-scale hierarchical image database

fields

years

verdicts

representative citing papers

citing papers explorer