{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2025:GFIZ5KWI2PE7WXHC7OPMONMV46","short_pith_number":"pith:GFIZ5KWI","canonical_record":{"source":{"id":"2511.02776","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-11-04T17:59:12Z","cross_cats_sorted":[],"title_canon_sha256":"0f8df0c6b1dc9c5dab1465538fa65774cd243c8fcd5ca3916a4038ec6d28fa52","abstract_canon_sha256":"93635b565ca3920101d10027c91b35b1c28d081f394e9708d4107f081d38cd1e"},"schema_version":"1.0"},"canonical_sha256":"31519eaac8d3c9fb5ce2fb9ec73595e7a9c25eda4cce7c68f97ccc90b2a31b10","source":{"kind":"arxiv","id":"2511.02776","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2511.02776","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"arxiv_version","alias_value":"2511.02776v2","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2511.02776","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"pith_short_12","alias_value":"GFIZ5KWI2PE7","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"GFIZ5KWI2PE7WXHC","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"GFIZ5KWI","created_at":"2026-05-18T12:33:37Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2025:GFIZ5KWI2PE7WXHC7OPMONMV46","target":"record","payload":{"canonical_record":{"source":{"id":"2511.02776","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-11-04T17:59:12Z","cross_cats_sorted":[],"title_canon_sha256":"0f8df0c6b1dc9c5dab1465538fa65774cd243c8fcd5ca3916a4038ec6d28fa52","abstract_canon_sha256":"93635b565ca3920101d10027c91b35b1c28d081f394e9708d4107f081d38cd1e"},"schema_version":"1.0"},"canonical_sha256":"31519eaac8d3c9fb5ce2fb9ec73595e7a9c25eda4cce7c68f97ccc90b2a31b10","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:04.664620Z","signature_b64":"Y5RzrZQsJlfTORpzqRbPzcTB08220R2mRNpdcAPfr5XmatnKqurcJDCKJ9jaz+qyRxy5LKSjME+CosaapFG5DA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"31519eaac8d3c9fb5ce2fb9ec73595e7a9c25eda4cce7c68f97ccc90b2a31b10","last_reissued_at":"2026-05-17T23:39:04.663905Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:04.663905Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2511.02776","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:39:04Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"OmF3gqU/Xgi0FBExJF6Or8kz0DRc7TcICGVKa+z/uLKdB6AD4EPy4X/Egtq/SBkz9Ld56qqJJHDdHyNktfT6CA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T05:21:08.693147Z"},"content_sha256":"9fccffe2a0502f9fb2318235facbc06f107b43afdc1145e0031dbdf56cf24970","schema_version":"1.0","event_id":"sha256:9fccffe2a0502f9fb2318235facbc06f107b43afdc1145e0031dbdf56cf24970"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2025:GFIZ5KWI2PE7WXHC7OPMONMV46","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Di Wu, Fei Liao, Jian Tang, Kun Wu, Meng Li, Min Wan, Ning Liu, Qingjie Liu, Shanghang Zhang, Shichao Fan, Xinhua Wang, Yixue Zhang, Zhengping Che, Zhen Zhao, Zhiyuan Xu","submitted_at":"2025-11-04T17:59:12Z","abstract_excerpt":"Recent progress in large-scale robotic datasets and vision-language models (VLMs) has advanced research on vision-language-action (VLA) models. However, existing VLA models still face two fundamental challenges: (i) producing precise low-level actions from high-dimensional observations, (ii) bridging domain gaps across heterogeneous data sources, including diverse robot embodiments and human demonstrations. Existing methods often encode latent variables from either visual dynamics or robotic actions to guide policy learning, but they fail to fully exploit the complementary multi-modal knowledg"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2511.02776","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:39:04Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"6yZsBHZF3jBKK5aAPD79hluCiQBUN/VAI/UELvrjKjnlbF+jsydFyL980ziMILPrzwV90f0Gtr7hOo3MINeACg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T05:21:08.693519Z"},"content_sha256":"626ffb0dc88bdd28742ac8b0878760ecd041be1270ee89361ad3ca3945f59429","schema_version":"1.0","event_id":"sha256:626ffb0dc88bdd28742ac8b0878760ecd041be1270ee89361ad3ca3945f59429"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/bundle.json","state_url":"https://pith.science/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-28T05:21:08Z","links":{"resolver":"https://pith.science/pith/GFIZ5KWI2PE7WXHC7OPMONMV46","bundle":"https://pith.science/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/bundle.json","state":"https://pith.science/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/state.json","well_known_bundle":"https://pith.science/.well-known/pith/GFIZ5KWI2PE7WXHC7OPMONMV46/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:GFIZ5KWI2PE7WXHC7OPMONMV46","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"93635b565ca3920101d10027c91b35b1c28d081f394e9708d4107f081d38cd1e","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-11-04T17:59:12Z","title_canon_sha256":"0f8df0c6b1dc9c5dab1465538fa65774cd243c8fcd5ca3916a4038ec6d28fa52"},"schema_version":"1.0","source":{"id":"2511.02776","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2511.02776","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"arxiv_version","alias_value":"2511.02776v2","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2511.02776","created_at":"2026-05-17T23:39:04Z"},{"alias_kind":"pith_short_12","alias_value":"GFIZ5KWI2PE7","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"GFIZ5KWI2PE7WXHC","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"GFIZ5KWI","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:626ffb0dc88bdd28742ac8b0878760ecd041be1270ee89361ad3ca3945f59429","target":"graph","created_at":"2026-05-17T23:39:04Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Recent progress in large-scale robotic datasets and vision-language models (VLMs) has advanced research on vision-language-action (VLA) models. However, existing VLA models still face two fundamental challenges: (i) producing precise low-level actions from high-dimensional observations, (ii) bridging domain gaps across heterogeneous data sources, including diverse robot embodiments and human demonstrations. Existing methods often encode latent variables from either visual dynamics or robotic actions to guide policy learning, but they fail to fully exploit the complementary multi-modal knowledg","authors_text":"Di Wu, Fei Liao, Jian Tang, Kun Wu, Meng Li, Min Wan, Ning Liu, Qingjie Liu, Shanghang Zhang, Shichao Fan, Xinhua Wang, Yixue Zhang, Zhengping Che, Zhen Zhao, Zhiyuan Xu","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-11-04T17:59:12Z","title":"XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2511.02776","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:9fccffe2a0502f9fb2318235facbc06f107b43afdc1145e0031dbdf56cf24970","target":"record","created_at":"2026-05-17T23:39:04Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"93635b565ca3920101d10027c91b35b1c28d081f394e9708d4107f081d38cd1e","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-11-04T17:59:12Z","title_canon_sha256":"0f8df0c6b1dc9c5dab1465538fa65774cd243c8fcd5ca3916a4038ec6d28fa52"},"schema_version":"1.0","source":{"id":"2511.02776","kind":"arxiv","version":2}},"canonical_sha256":"31519eaac8d3c9fb5ce2fb9ec73595e7a9c25eda4cce7c68f97ccc90b2a31b10","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"31519eaac8d3c9fb5ce2fb9ec73595e7a9c25eda4cce7c68f97ccc90b2a31b10","first_computed_at":"2026-05-17T23:39:04.663905Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:39:04.663905Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"Y5RzrZQsJlfTORpzqRbPzcTB08220R2mRNpdcAPfr5XmatnKqurcJDCKJ9jaz+qyRxy5LKSjME+CosaapFG5DA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:39:04.664620Z","signed_message":"canonical_sha256_bytes"},"source_id":"2511.02776","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:9fccffe2a0502f9fb2318235facbc06f107b43afdc1145e0031dbdf56cf24970","sha256:626ffb0dc88bdd28742ac8b0878760ecd041be1270ee89361ad3ca3945f59429"],"state_sha256":"b19842800ab825e572fcab4da785aa5de19929e76c5aef1abdd8e33e5ab3b142"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"caWi//LjyMfHoY3AXd9SdO2+kIstQTbWVeHHiKwJshgEmJ98S1p0+emfiY3pjNkUzrQBTKG45DbLIi5U4YQfBg==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-28T05:21:08.695550Z","bundle_sha256":"086a14ff87e1980e717bfdb789ab7d372bd27f84733ad621efc4b95c0ecf641e"}}