{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:7R3KALCWAIBC6ZW7UNM2A3ARTT","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"98d824b8256fed7fd16f4324d5894e13224752a68eb90cfd9098b15ec171acad","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-01T05:20:26Z","title_canon_sha256":"40aede173ed21899b932f9de06f20022dfeb6d1ab52d0857b70afb48e9e6b1f7"},"schema_version":"1.0","source":{"id":"2605.00416","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.00416","created_at":"2026-06-04T01:08:50Z"},{"alias_kind":"arxiv_version","alias_value":"2605.00416v2","created_at":"2026-06-04T01:08:50Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.00416","created_at":"2026-06-04T01:08:50Z"},{"alias_kind":"pith_short_12","alias_value":"7R3KALCWAIBC","created_at":"2026-06-04T01:08:50Z"},{"alias_kind":"pith_short_16","alias_value":"7R3KALCWAIBC6ZW7","created_at":"2026-06-04T01:08:50Z"},{"alias_kind":"pith_short_8","alias_value":"7R3KALCW","created_at":"2026-06-04T01:08:50Z"}],"graph_snapshots":[{"event_id":"sha256:0bddcc12bdfdc5cec4937515075f8ef04a6fe6914a8b09364eab49e81feba6e9","target":"graph","created_at":"2026-06-04T01:08:50Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That the combination of DIVL for robust value estimation and QAM for policy extraction can stabilize learning from heterogeneous, sparse-reward data collected across a robot fleet without additional mechanisms for handling noise or bias in human interventions."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"Fleet-scale RL framework improves a single generalist VLA policy from deployment data to 95% average success on eight real-world manipulation tasks with 16 dual-arm robots."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"A single generalist policy trained across a robot fleet reaches 95% success rate as experience accumulates."}],"snapshot_sha256":"88cfc1e7bf498708dc13c286bfefe6732db4db4a53eac1ae772c026f3ec6adf6"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-20T19:43:00.800944Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_compliance","ran_at":"2026-05-19T18:10:55.924833Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2605.00416/integrity.json","findings":[],"snapshot_sha256":"353af6ef409d35642026e4a1fea243d99f929584715815c06236748a278facd5","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared ","authors_text":"Buqing Nie, Chendi Qu, Jeffrey Wu, Jianheng Song, Jianlan Luo, Jingshun Huang, Mingjie Pan, Pengwei Xie, Pu Yang, Qinglin Zhang, Siyuan Feng, Xinchen Li, Xinlin Ren, Yi Wang, Yunuo Cai, Zhi Chen","cross_cats":[],"headline":"A single generalist policy trained across a robot fleet reaches 95% success rate as experience accumulates.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-01T05:20:26Z","title":"Learning While Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.00416","kind":"arxiv","version":2},"verdict":{"created_at":"2026-05-09T19:29:02.241545Z","id":"a285bc20-92f4-4a59-b3f7-9d0fb30a7d07","model_set":{"reader":"grok-4.3"},"one_line_summary":"Fleet-scale RL framework improves a single generalist VLA policy from deployment data to 95% average success on eight real-world manipulation tasks with 16 dual-arm robots.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"A single generalist policy trained across a robot fleet reaches 95% success rate as experience accumulates.","strongest_claim":"A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.","weakest_assumption":"That the combination of DIVL for robust value estimation and QAM for policy extraction can stabilize learning from heterogeneous, sparse-reward data collected across a robot fleet without additional mechanisms for handling noise or bias in human interventions."}},"verdict_id":"a285bc20-92f4-4a59-b3f7-9d0fb30a7d07"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:5e63758da72a71135fcb0b75d157b1ed9227b8ad84e2ac31ac360f478e4d2c0e","target":"record","created_at":"2026-06-04T01:08:50Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"98d824b8256fed7fd16f4324d5894e13224752a68eb90cfd9098b15ec171acad","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-01T05:20:26Z","title_canon_sha256":"40aede173ed21899b932f9de06f20022dfeb6d1ab52d0857b70afb48e9e6b1f7"},"schema_version":"1.0","source":{"id":"2605.00416","kind":"arxiv","version":2}},"canonical_sha256":"fc76a02c5602022f66dfa359a06c119cf35d3051c549d7ced1ea3d6812efa28b","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"fc76a02c5602022f66dfa359a06c119cf35d3051c549d7ced1ea3d6812efa28b","first_computed_at":"2026-06-04T01:08:50.710552Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-04T01:08:50.710552Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"MIAx78A80e09/8M/bt1W9B8gVwNJTHUDAi6ybVocM82toa2bh0Mev0OCkCpwaLQyMPNfqvjLps0vB6BLHgNUDA==","signature_status":"signed_v1","signed_at":"2026-06-04T01:08:50.711046Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.00416","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:5e63758da72a71135fcb0b75d157b1ed9227b8ad84e2ac31ac360f478e4d2c0e","sha256:0bddcc12bdfdc5cec4937515075f8ef04a6fe6914a8b09364eab49e81feba6e9"],"state_sha256":"9306a774982f91423a19cbdf1c09a593b97d0026ebbdeeb98601538e14630f4a"}