{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:XKO3DYKMVIOKZM5HX6TSVZFV26","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"2216604d31c8e863c8e4a104c63fcf7c24903ce67f6a7380cbd2b52faf0e1fc4","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T07:15:37Z","title_canon_sha256":"974139390ca7ed35f9d6b6dc7187f4d9158adabc2396863129e1be71ce3dadfc"},"schema_version":"1.0","source":{"id":"2605.13105","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.13105","created_at":"2026-05-18T03:08:58Z"},{"alias_kind":"arxiv_version","alias_value":"2605.13105v1","created_at":"2026-05-18T03:08:58Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.13105","created_at":"2026-05-18T03:08:58Z"},{"alias_kind":"pith_short_12","alias_value":"XKO3DYKMVIOK","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"XKO3DYKMVIOKZM5H","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"XKO3DYKM","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:e6da02523cff4e8601a29d9916a53760ce937f59a449afdcb67c76a5a11c0b66","target":"graph","created_at":"2026-05-18T03:08:58Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Our method consistently improves over standard PPO, achieving average improvements of 16.62% on π0.5 and 9.10% on OpenVLA across diverse out-of-distribution visual shifts."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That paired visual variants (task-preserving and task-altering) can be reliably generated or labeled during training to provide accurate behavior-level supervision without introducing new biases."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"PAIR-VLA adds invariance and sensitivity objectives over paired visual variants during PPO fine-tuning of VLA models, yielding 9-16% average gains on ManiSkill3 under distractors, textures, poses, viewpoints, and lighting shifts."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"PAIR-VLA adds invariance and sensitivity objectives over paired visual variants to improve RL fine-tuning of VLA models under visual shifts."}],"snapshot_sha256":"0d6da9a3407ba9d4c3a6557a00747a9cbcc78446906970bcaaf9a56db4009d45"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Reinforcement learning (RL) fine-tuning has shown promise for Vision-Language-Action (VLA) models in robotic manipulation, but deployment-time visual shifts pose practical challenges. A key difficulty is that standard task rewards supervise task success, but offer limited guidance on whether a visual change is task-irrelevant or changes the behavior required for manipulation. We propose PAIR-VLA (Paired Action Invariance & Sensitivity for Visually Robust VLA), an RL fine-tuning framework to address this difficulty by adding two auxiliary objectives over paired visual variants during PPO optimi","authors_text":"Chuheng Zhang, Jiang Bian, Jingjing Fu, Jun Zhang, Ling Zhang, Li Zhao, Mingyu Liu, Rui Wang, Yuanfang Peng","cross_cats":[],"headline":"PAIR-VLA adds invariance and sensitivity objectives over paired visual variants to improve RL fine-tuning of VLA models under visual shifts.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T07:15:37Z","title":"What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models"},"references":{"count":43,"internal_anchors":9,"resolved_work":43,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Open x- embodiment: Robotic learning datasets and rt-x models: Open x-embodiment collaboration 0","work_id":"846c44cc-0874-4a3c-90cb-b86f68157e99","year":2024},{"cited_arxiv_id":"2403.12945","doi":"","is_internal_anchor":true,"ref_index":2,"title":"DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset","work_id":"13253de2-3d89-415c-8c2f-3adb25d4c337","year":2024},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Rt-2: Vision-language-action models transfer web knowledge to robotic control, 2023","work_id":"f08c7a53-d673-4be5-b955-d92443959ebf","year":2023},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Octo: An open-source generalist robot policy, 2024","work_id":"9644ac38-9a21-4d5e-9386-5460ec7456ea","year":2024},{"cited_arxiv_id":"2410.24164","doi":"","is_internal_anchor":true,"ref_index":5,"title":"$\\pi_0$: A Vision-Language-Action Flow Model for General Robot Control","work_id":"f790abdc-a796-482f-a40d-f8ee035ecfc2","year":2024}],"snapshot_sha256":"ec062a49971027b94d2df6dce5fbe087e484745e564ade7f770ea2cdc4c7f442"},"source":{"id":"2605.13105","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-14T18:41:43.923590Z","id":"7679d0dc-6da7-487d-b481-ed305e022076","model_set":{"reader":"grok-4.3"},"one_line_summary":"PAIR-VLA adds invariance and sensitivity objectives over paired visual variants during PPO fine-tuning of VLA models, yielding 9-16% average gains on ManiSkill3 under distractors, textures, poses, viewpoints, and lighting shifts.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"PAIR-VLA adds invariance and sensitivity objectives over paired visual variants to improve RL fine-tuning of VLA models under visual shifts.","strongest_claim":"Our method consistently improves over standard PPO, achieving average improvements of 16.62% on π0.5 and 9.10% on OpenVLA across diverse out-of-distribution visual shifts.","weakest_assumption":"That paired visual variants (task-preserving and task-altering) can be reliably generated or labeled during training to provide accurate behavior-level supervision without introducing new biases."}},"verdict_id":"7679d0dc-6da7-487d-b481-ed305e022076"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:3c03b2f3d8392928e0da93a107bec820a8e14d5b005309ce1d42adbd8a1bcca6","target":"record","created_at":"2026-05-18T03:08:58Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"2216604d31c8e863c8e4a104c63fcf7c24903ce67f6a7380cbd2b52faf0e1fc4","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T07:15:37Z","title_canon_sha256":"974139390ca7ed35f9d6b6dc7187f4d9158adabc2396863129e1be71ce3dadfc"},"schema_version":"1.0","source":{"id":"2605.13105","kind":"arxiv","version":1}},"canonical_sha256":"ba9db1e14caa1cacb3a7bfa72ae4b5d7ba02910f260d89f95f7fc67d2f8b6f37","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"ba9db1e14caa1cacb3a7bfa72ae4b5d7ba02910f260d89f95f7fc67d2f8b6f37","first_computed_at":"2026-05-18T03:08:58.185087Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T03:08:58.185087Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"wjt18k2VdFeHoruV1e1jYr7vrUYkyrmVIq/O509yiE0Ek4dNIsPfYtyHvcFteAG80rU8tcqTbs3b8Vglt036CQ==","signature_status":"signed_v1","signed_at":"2026-05-18T03:08:58.185618Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.13105","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:3c03b2f3d8392928e0da93a107bec820a8e14d5b005309ce1d42adbd8a1bcca6","sha256:e6da02523cff4e8601a29d9916a53760ce937f59a449afdcb67c76a5a11c0b66"],"state_sha256":"d5c0146d8ea5d0c3470ea723c3ed8ff6348f50a100325a6719da3cb50cc24f71"}