For SSL training with MAE, target an effective batch size of 1024 via gradient accumulation, and apply random resized cropping as the augmentation strategy

for data augmentation · 2026

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

cs.CV · 2025-05-26 · unverdicted · novelty 6.0

ViTaPEs uses two-stage positional encodings in a multimodal transformer to learn task-agnostic visuotactile representations that outperform baselines on recognition tasks, show zero-shot generalization, and improve robotic grasp success prediction.

citing papers explorer

Showing 1 of 1 citing paper.

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers cs.CV · 2025-05-26 · unverdicted · none · ref 9
ViTaPEs uses two-stage positional encodings in a multimodal transformer to learn task-agnostic visuotactile representations that outperform baselines on recognition tasks, show zero-shot generalization, and improve robotic grasp success prediction.

For SSL training with MAE, target an effective batch size of 1024 via gradient accumulation, and apply random resized cropping as the augmentation strategy

fields

years

verdicts

representative citing papers

citing papers explorer