Your ViT is secretly a hybrid discriminative-generative diffusion model

Xiulong Yang, Sheng-Min Shih, Yinlin Fu, Xiaoting Zhao, Shihao Ji · 2022 · arXiv 2208.07791

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

cs.CV · 2024-10-09 · unverdicted · novelty 6.0

Aligning noisy hidden states in diffusion transformers to clean features from pretrained visual encoders speeds up training over 17x and reaches FID 1.42.

Teacher-Feature Drifting: One-Step Diffusion Distillation with Pretrained Diffusion Representations

cs.CV · 2026-05-08 · unverdicted · novelty 5.0

A simplified one-step diffusion distillation uses pretrained teacher features directly for drifting loss plus a mode coverage term, achieving FID 1.58 on ImageNet-64 and 18.4 on SDXL.

citing papers explorer

Showing 2 of 2 citing papers.

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think cs.CV · 2024-10-09 · unverdicted · none · ref 198
Aligning noisy hidden states in diffusion transformers to clean features from pretrained visual encoders speeds up training over 17x and reaches FID 1.42.
Teacher-Feature Drifting: One-Step Diffusion Distillation with Pretrained Diffusion Representations cs.CV · 2026-05-08 · unverdicted · none · ref 19
A simplified one-step diffusion distillation uses pretrained teacher features directly for drifting loss plus a mode coverage term, achieving FID 1.58 on ImageNet-64 and 18.4 on SDXL.

Your ViT is secretly a hybrid discriminative-generative diffusion model

fields

years

verdicts

representative citing papers

citing papers explorer