{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:U7ZC24LCQ2KKXB5MFGVXKHMLNJ","short_pith_number":"pith:U7ZC24LC","canonical_record":{"source":{"id":"2605.14174","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","cross_cats_sorted":[],"title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87","abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489"},"schema_version":"1.0"},"canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","source":{"kind":"arxiv","id":"2605.14174","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"arxiv_version","alias_value":"2605.14174v1","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"pith_short_12","alias_value":"U7ZC24LCQ2KK","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"U7ZC24LCQ2KKXB5M","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"U7ZC24LC","created_at":"2026-05-18T12:33:37Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:U7ZC24LCQ2KKXB5MFGVXKHMLNJ","target":"record","payload":{"canonical_record":{"source":{"id":"2605.14174","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","cross_cats_sorted":[],"title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87","abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489"},"schema_version":"1.0"},"canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:11.321934Z","signature_b64":"LL5tlWL+t+QjVWl+j5LFjutsZYuvPNvGq8ATTyoptn3FUomn+YE7ZCoKT0swsvVqp4eSmnDBzJUua1pHqpxOAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","last_reissued_at":"2026-05-17T23:39:11.321214Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:11.321214Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2605.14174","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:39:11Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"4C6/Xi2v3E3z5RK5q9zY2BGGLTHDXcfn4pD9v0SJPRm7sXOkW+NO1iBiylQvCCQXVo1N8+pbkt4e5oiMf48mAA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T09:06:22.247708Z"},"content_sha256":"529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97","schema_version":"1.0","event_id":"sha256:529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:U7ZC24LCQ2KKXB5MFGVXKHMLNJ","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation","license":"http://creativecommons.org/licenses/by/4.0/","headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Changshun Wu, Jinwei Hu, Qisong He, Xiaowei Huang, Xinmiao Huang, Yi Dong, Zhuoyun Li","submitted_at":"2026-05-13T22:53:47Z","abstract_excerpt":"Safe navigation for mobile robots demands policies that remain reliable under the high-consequence perception uncertainty of cluttered environments. Yet most existing safe reinforcement learning (RL) methods assess safety through average cumulative cost. Such metrics can mask dangerous tail-risk behaviors. To address this, we propose a framework that trains risk-sensitive policies through Conditional Value-at-Risk (CVaR) constrained optimization on an off-policy TD3 backbone and evaluates their safety margins post-training through neural network reachability verification. During training, the "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"dda45f0955487e9b0d8aac5e96a3d07285309cb0e1a991c5f976c524fc7087df"},"source":{"id":"2605.14174","kind":"arxiv","version":1},"verdict":{"id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T04:50:05.442166Z","strongest_claim":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification.","one_line_summary":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation.","pith_extraction_headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates."},"references":{"count":31,"sample":[{"doi":"","year":2021,"title":"Altman,Constrained Markov decision processes","work_id":"4b75b0e7-2f33-475c-9d5d-51dfb37ae21b","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"J. Achiam, D. Held, A. Tamar, and P. Abbeel, “Constrained policy optimization,” inInternational conference on machine learning. Pmlr, 2017, pp. 22–31","work_id":"204df451-d9a5-4111-a0c9-7b71030f345e","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2018,"title":"Reward constrained policy optimization","work_id":"c4fdaea7-11ae-432a-8a0c-0b650e87b855","ref_index":3,"cited_arxiv_id":"1805.11074","is_internal_anchor":true},{"doi":"","year":2020,"title":"Learning to walk in the real world with minimal human effort,","work_id":"dbf0682e-ef18-4752-81c1-b60e982e7541","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":1910,"title":"Benchmarking Batch Deep Reinforcement Learning Algorithms","work_id":"399c3bf3-740c-41a8-bb6b-dfe1ea43e56d","ref_index":5,"cited_arxiv_id":"1910.01708","is_internal_anchor":true}],"resolved_work":31,"snapshot_sha256":"d7039e30ca8f23f86a4cf65fee8e05cf2786ab0fb06f2bd968e15b663add1538","internal_anchors":2},"formal_canon":{"evidence_count":2,"snapshot_sha256":"af09edae8261ab59e1b492c11adc909bd687294d886f40e54334aeb460f0eafe"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:39:11Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"Oe2IrO0schQdVRih3w4UdwV1MERqX1CoBLF/DTBwSkX/m5pjLjUbymKdkN92YrnFvD5YegMNAuDOvNJqaPrdDw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T09:06:22.248367Z"},"content_sha256":"cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f","schema_version":"1.0","event_id":"sha256:cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/bundle.json","state_url":"https://pith.science/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-28T09:06:22Z","links":{"resolver":"https://pith.science/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ","bundle":"https://pith.science/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/bundle.json","state":"https://pith.science/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/state.json","well_known_bundle":"https://pith.science/.well-known/pith/U7ZC24LCQ2KKXB5MFGVXKHMLNJ/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:U7ZC24LCQ2KKXB5MFGVXKHMLNJ","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87"},"schema_version":"1.0","source":{"id":"2605.14174","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"arxiv_version","alias_value":"2605.14174v1","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"pith_short_12","alias_value":"U7ZC24LCQ2KK","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"U7ZC24LCQ2KKXB5M","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"U7ZC24LC","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f","target":"graph","created_at":"2026-05-17T23:39:11Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates."}],"snapshot_sha256":"dda45f0955487e9b0d8aac5e96a3d07285309cb0e1a991c5f976c524fc7087df"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"af09edae8261ab59e1b492c11adc909bd687294d886f40e54334aeb460f0eafe"},"paper":{"abstract_excerpt":"Safe navigation for mobile robots demands policies that remain reliable under the high-consequence perception uncertainty of cluttered environments. Yet most existing safe reinforcement learning (RL) methods assess safety through average cumulative cost. Such metrics can mask dangerous tail-risk behaviors. To address this, we propose a framework that trains risk-sensitive policies through Conditional Value-at-Risk (CVaR) constrained optimization on an off-policy TD3 backbone and evaluates their safety margins post-training through neural network reachability verification. During training, the ","authors_text":"Changshun Wu, Jinwei Hu, Qisong He, Xiaowei Huang, Xinmiao Huang, Yi Dong, Zhuoyun Li","cross_cats":[],"headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title":"Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation"},"references":{"count":31,"internal_anchors":2,"resolved_work":31,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Altman,Constrained Markov decision processes","work_id":"4b75b0e7-2f33-475c-9d5d-51dfb37ae21b","year":2021},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"J. Achiam, D. Held, A. Tamar, and P. Abbeel, “Constrained policy optimization,” inInternational conference on machine learning. Pmlr, 2017, pp. 22–31","work_id":"204df451-d9a5-4111-a0c9-7b71030f345e","year":2017},{"cited_arxiv_id":"1805.11074","doi":"","is_internal_anchor":true,"ref_index":3,"title":"Reward constrained policy optimization","work_id":"c4fdaea7-11ae-432a-8a0c-0b650e87b855","year":2018},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Learning to walk in the real world with minimal human effort,","work_id":"dbf0682e-ef18-4752-81c1-b60e982e7541","year":2020},{"cited_arxiv_id":"1910.01708","doi":"","is_internal_anchor":true,"ref_index":5,"title":"Benchmarking Batch Deep Reinforcement Learning Algorithms","work_id":"399c3bf3-740c-41a8-bb6b-dfe1ea43e56d","year":1910}],"snapshot_sha256":"d7039e30ca8f23f86a4cf65fee8e05cf2786ab0fb06f2bd968e15b663add1538"},"source":{"id":"2605.14174","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-15T04:50:05.442166Z","id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9","model_set":{"reader":"grok-4.3"},"one_line_summary":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","strongest_claim":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification.","weakest_assumption":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation."}},"verdict_id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97","target":"record","created_at":"2026-05-17T23:39:11Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87"},"schema_version":"1.0","source":{"id":"2605.14174","kind":"arxiv","version":1}},"canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","first_computed_at":"2026-05-17T23:39:11.321214Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:39:11.321214Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"LL5tlWL+t+QjVWl+j5LFjutsZYuvPNvGq8ATTyoptn3FUomn+YE7ZCoKT0swsvVqp4eSmnDBzJUua1pHqpxOAg==","signature_status":"signed_v1","signed_at":"2026-05-17T23:39:11.321934Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.14174","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97","sha256:cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f"],"state_sha256":"2c94f4f292b4864a7c9f769fb0c46e9187ea093037cdc026ce1d37df8577a81e"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"/984R0vtQFl6/vHbLRKjxC2WqXJvcTrAJNuqVPSalfJLihgKQE97BJ48rTZHg6nM627nyAG59uAsPIEfSG+qCA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-28T09:06:22.250934Z","bundle_sha256":"3efb76732aa0343398ff2f8d6bd32e1097fc917f29f4b1bc2f326bf29cb071c6"}}