SiT: Self-supervised vision transformer

Sara Atito, Muhammad Awais, Josef Kittler · 2021 · arXiv 2104.03602

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

method 2

citation-polarity summary

use method 2

representative citing papers

iBOT: Image BERT Pre-Training with Online Tokenizer

cs.CV · 2021-11-15 · unverdicted · novelty 7.0

iBOT achieves 82.3% linear probing accuracy and 87.8% fine-tuning accuracy on ImageNet-1K using masked image modeling with a jointly trained online tokenizer.

PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection

cs.CV · 2025-09-30 · unverdicted · novelty 6.0

PRPO is a paragraph-level policy optimization technique that grounds vision-language model reasoning in image content to raise deepfake detection accuracy and reasoning quality.

From pre-training to downstream performance: Does domain-specific pre-training make sense?

cs.CV · 2026-05-09 · unverdicted · novelty 4.0

Pre-training on modality-matched data significantly improves downstream performance in medical imaging models while self-supervised learning benefits depend on context.

citing papers explorer

Showing 3 of 3 citing papers.

iBOT: Image BERT Pre-Training with Online Tokenizer cs.CV · 2021-11-15 · unverdicted · none · ref 2
iBOT achieves 82.3% linear probing accuracy and 87.8% fine-tuning accuracy on ImageNet-1K using masked image modeling with a jointly trained online tokenizer.
PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection cs.CV · 2025-09-30 · unverdicted · none · ref 4
PRPO is a paragraph-level policy optimization technique that grounds vision-language model reasoning in image content to raise deepfake detection accuracy and reasoning quality.
From pre-training to downstream performance: Does domain-specific pre-training make sense? cs.CV · 2026-05-09 · unverdicted · none · ref 1
Pre-training on modality-matched data significantly improves downstream performance in medical imaging models while self-supervised learning benefits depend on context.

SiT: Self-supervised vision transformer

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer