Perceptionlm: Open-access data and models for detailed visual understanding

Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, et al · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding

cs.CV · 2026-05-12 · conditional · novelty 7.0

BARISTA introduces a densely annotated egocentric coffee-preparation video dataset and multi-task benchmark that reveals performance variation across models on compositional visual tasks.

citing papers explorer

Showing 1 of 1 citing paper.

BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding cs.CV · 2026-05-12 · conditional · none · ref 9
BARISTA introduces a densely annotated egocentric coffee-preparation video dataset and multi-task benchmark that reveals performance variation across models on compositional visual tasks.

Perceptionlm: Open-access data and models for detailed visual understanding

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer