We present qualitative reconstruction results in Figure 8 for our 256 / 384 resolution vision tower

B Q UALITATIVE RESULTS B · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

cs.CV · 2024-09-06 · unverdicted · novelty 6.0

VILA-U unifies visual understanding and generation inside one autoregressive next-token prediction model, removing separate diffusion components while claiming near state-of-the-art results.

citing papers explorer

Showing 1 of 1 citing paper.

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation cs.CV · 2024-09-06 · unverdicted · none · ref 27
VILA-U unifies visual understanding and generation inside one autoregressive next-token prediction model, removing separate diffusion components while claiming near state-of-the-art results.

We present qualitative reconstruction results in Figure 8 for our 256 / 384 resolution vision tower

fields

years

verdicts

representative citing papers

citing papers explorer