Each object is documented through high-quality 3D meshes, HD rotation videos, and multiple tactile recordings from a GelSight sensor (Yuan et al., 2017a)

provides comprehensive multisensory data for 100 common household items · 2026

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

cs.CV · 2025-05-26 · unverdicted · novelty 6.0

ViTaPEs uses two-stage positional encodings in a multimodal transformer to learn task-agnostic visuotactile representations that outperform baselines on recognition tasks, show zero-shot generalization, and improve robotic grasp success prediction.

citing papers explorer

Showing 1 of 1 citing paper.

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers cs.CV · 2025-05-26 · unverdicted · none · ref 11
ViTaPEs uses two-stage positional encodings in a multimodal transformer to learn task-agnostic visuotactile representations that outperform baselines on recognition tasks, show zero-shot generalization, and improve robotic grasp success prediction.

Each object is documented through high-quality 3D meshes, HD rotation videos, and multiple tactile recordings from a GelSight sensor (Yuan et al., 2017a)

fields

years

verdicts

representative citing papers

citing papers explorer