{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:PXKQ3VR3HS3ZRPKNVAQVA3VY3Z","short_pith_number":"pith:PXKQ3VR3","schema_version":"1.0","canonical_sha256":"7dd50dd63b3cb798bd4da821506eb8de5364ad3ee75085babfbc582443ad2fb0","source":{"kind":"arxiv","id":"2605.30484","version":1},"attestation_state":"computed","paper":{"title":"ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Bowen Yang, Fan Mo, Jialin Yu, Jingjing Qian, Junchi Yan, Keru Zhou, Lei Jiang, Li Jiang, Philip Torr, Xiu Li, Zeyuan He, Zhirui Fang","submitted_at":"2026-05-28T19:03:30Z","abstract_excerpt":"Vision-Language-Action (VLA) models have shown promise for robotic manipulation, yet most existing policies operate reactively by directly regressing actions from current observations, without explicitly modeling future dynamics. This limits their ability to generalize under out-of-distribution perturbations. To address this issue, we propose ELAN4D, an embodiment-centric, 4D-aware training framework that enhances VLA policies with future robot keypoint tracks as predictive spatio-temporal supervision. Using only forward kinematics from proprioceptive states, we derive 3D displacement tracks o"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.30484","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-28T19:03:30Z","cross_cats_sorted":[],"title_canon_sha256":"e5613fe67003c83ca619e08d2f5b023909aa47435b27bebf61efdd65515e50b7","abstract_canon_sha256":"c03ca97aebf4e9ca0a70d57deb13467419f522cddbe0181ca9806efc3816d364"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-01T01:02:56.820997Z","signature_b64":"a405OEM6WYL+0H1hSZjpxUdjmn5JskavUfEt3XibnT3KJVlN1u3mbfzyVOamP3iDmz2XX0RBPzA5KMrL4Pw6BQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7dd50dd63b3cb798bd4da821506eb8de5364ad3ee75085babfbc582443ad2fb0","last_reissued_at":"2026-06-01T01:02:56.820106Z","signature_status":"signed_v1","first_computed_at":"2026-06-01T01:02:56.820106Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Bowen Yang, Fan Mo, Jialin Yu, Jingjing Qian, Junchi Yan, Keru Zhou, Lei Jiang, Li Jiang, Philip Torr, Xiu Li, Zeyuan He, Zhirui Fang","submitted_at":"2026-05-28T19:03:30Z","abstract_excerpt":"Vision-Language-Action (VLA) models have shown promise for robotic manipulation, yet most existing policies operate reactively by directly regressing actions from current observations, without explicitly modeling future dynamics. This limits their ability to generalize under out-of-distribution perturbations. To address this issue, we propose ELAN4D, an embodiment-centric, 4D-aware training framework that enhances VLA policies with future robot keypoint tracks as predictive spatio-temporal supervision. Using only forward kinematics from proprioceptive states, we derive 3D displacement tracks o"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.30484","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.30484/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.30484","created_at":"2026-06-01T01:02:56.820257+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.30484v1","created_at":"2026-06-01T01:02:56.820257+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.30484","created_at":"2026-06-01T01:02:56.820257+00:00"},{"alias_kind":"pith_short_12","alias_value":"PXKQ3VR3HS3Z","created_at":"2026-06-01T01:02:56.820257+00:00"},{"alias_kind":"pith_short_16","alias_value":"PXKQ3VR3HS3ZRPKN","created_at":"2026-06-01T01:02:56.820257+00:00"},{"alias_kind":"pith_short_8","alias_value":"PXKQ3VR3","created_at":"2026-06-01T01:02:56.820257+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z","json":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z.json","graph_json":"https://pith.science/api/pith-number/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/graph.json","events_json":"https://pith.science/api/pith-number/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/events.json","paper":"https://pith.science/paper/PXKQ3VR3"},"agent_actions":{"view_html":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z","download_json":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z.json","view_paper":"https://pith.science/paper/PXKQ3VR3","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.30484&json=true","fetch_graph":"https://pith.science/api/pith-number/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/graph.json","fetch_events":"https://pith.science/api/pith-number/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/action/storage_attestation","attest_author":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/action/author_attestation","sign_citation":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/action/citation_signature","submit_replication":"https://pith.science/pith/PXKQ3VR3HS3ZRPKNVAQVA3VY3Z/action/replication_record"}},"created_at":"2026-06-01T01:02:56.820257+00:00","updated_at":"2026-06-01T01:02:56.820257+00:00"}