Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features, 2025

Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

OmniEncoder: See, Hear, and Feel Continuous Motion Like Humans With One Encoder

cs.CV · 2026-05-02 · unverdicted · novelty 6.0

Omni-Encoder unifies visual and audio encoding at symmetrical 25 fps using a Transformer with three new components, yielding gains on fine-grained motion tasks while matching baselines on audio-visual benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

OmniEncoder: See, Hear, and Feel Continuous Motion Like Humans With One Encoder cs.CV · 2026-05-02 · unverdicted · none · ref 3
Omni-Encoder unifies visual and audio encoding at symmetrical 25 fps using a Transformer with three new components, yielding gains on fine-grained motion tasks while matching baselines on audio-visual benchmarks.

Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features, 2025

fields

years

verdicts

representative citing papers

citing papers explorer