SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers

· 2026 · cs.CV · arXiv 2605.22668

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open full Pith review browse 1 citing papers arXiv PDF

abstract

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.

representative citing papers

PhotoQuilt: Training-Free Arbitrary-Resolution Photomosaics via Bootstrapped Tiled Denoising

cs.CV · 2026-06-29 · unverdicted · novelty 6.0

A training-free bootstrapped tiled denoising procedure enables arbitrary-resolution photomosaics in diffusion models by fixing global layout at low resolution then denoising independent tiles after latent upscaling and noise re-injection.

citing papers explorer

Showing 1 of 1 citing paper.

PhotoQuilt: Training-Free Arbitrary-Resolution Photomosaics via Bootstrapped Tiled Denoising cs.CV · 2026-06-29 · unverdicted · none · ref 38 · internal anchor
A training-free bootstrapped tiled denoising procedure enables arbitrary-resolution photomosaics in diffusion models by fixing global layout at low resolution then denoising independent tiles after latent upscaling and noise re-injection.

SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers

fields

years

verdicts

representative citing papers

citing papers explorer