{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:U7ZC24LCQ2KKXB5MFGVXKHMLNJ","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87"},"schema_version":"1.0","source":{"id":"2605.14174","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"arxiv_version","alias_value":"2605.14174v1","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.14174","created_at":"2026-05-17T23:39:11Z"},{"alias_kind":"pith_short_12","alias_value":"U7ZC24LCQ2KK","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"U7ZC24LCQ2KKXB5M","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"U7ZC24LC","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f","target":"graph","created_at":"2026-05-17T23:39:11Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates."}],"snapshot_sha256":"dda45f0955487e9b0d8aac5e96a3d07285309cb0e1a991c5f976c524fc7087df"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"af09edae8261ab59e1b492c11adc909bd687294d886f40e54334aeb460f0eafe"},"paper":{"abstract_excerpt":"Safe navigation for mobile robots demands policies that remain reliable under the high-consequence perception uncertainty of cluttered environments. Yet most existing safe reinforcement learning (RL) methods assess safety through average cumulative cost. Such metrics can mask dangerous tail-risk behaviors. To address this, we propose a framework that trains risk-sensitive policies through Conditional Value-at-Risk (CVaR) constrained optimization on an off-policy TD3 backbone and evaluates their safety margins post-training through neural network reachability verification. During training, the ","authors_text":"Changshun Wu, Jinwei Hu, Qisong He, Xiaowei Huang, Xinmiao Huang, Yi Dong, Zhuoyun Li","cross_cats":[],"headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title":"Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation"},"references":{"count":31,"internal_anchors":2,"resolved_work":31,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Altman,Constrained Markov decision processes","work_id":"4b75b0e7-2f33-475c-9d5d-51dfb37ae21b","year":2021},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"J. Achiam, D. Held, A. Tamar, and P. Abbeel, “Constrained policy optimization,” inInternational conference on machine learning. Pmlr, 2017, pp. 22–31","work_id":"204df451-d9a5-4111-a0c9-7b71030f345e","year":2017},{"cited_arxiv_id":"1805.11074","doi":"","is_internal_anchor":true,"ref_index":3,"title":"Reward constrained policy optimization","work_id":"c4fdaea7-11ae-432a-8a0c-0b650e87b855","year":2018},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Learning to walk in the real world with minimal human effort,","work_id":"dbf0682e-ef18-4752-81c1-b60e982e7541","year":2020},{"cited_arxiv_id":"1910.01708","doi":"","is_internal_anchor":true,"ref_index":5,"title":"Benchmarking Batch Deep Reinforcement Learning Algorithms","work_id":"399c3bf3-740c-41a8-bb6b-dfe1ea43e56d","year":1910}],"snapshot_sha256":"d7039e30ca8f23f86a4cf65fee8e05cf2786ab0fb06f2bd968e15b663add1538"},"source":{"id":"2605.14174","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-15T04:50:05.442166Z","id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9","model_set":{"reader":"grok-4.3"},"one_line_summary":"CVaR-constrained TD3 policies for robot navigation show larger safety margins and higher post-training reachability verification rates than average-cost baselines across simulated scenarios and real-robot tests.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"CVaR-constrained training produces robot navigation policies with larger obstacle margins that formal reachability verification confirms at higher rates.","strongest_claim":"A key finding is that policies trained with CVaR constraints maintain larger safety margins from obstacles across evaluated states. This makes them significantly more amenable to formal reachability verification.","weakest_assumption":"The assumption that bounded observation uncertainty can be accurately modeled and that Taylor Model analysis yields sufficiently tight reachable sets for meaningful safety rate computation."}},"verdict_id":"b8da1dcf-4446-49e9-9a4a-e18ad2f7c8d9"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97","target":"record","created_at":"2026-05-17T23:39:11Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"0b0be7802aeba1ca833695cc858141d72379007655c1bab8fad3d01522642489","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-05-13T22:53:47Z","title_canon_sha256":"6ab7e6657de1a6f15f7fc08002c2eeaf504c17a80c6409a44bd8241cd1fdfb87"},"schema_version":"1.0","source":{"id":"2605.14174","kind":"arxiv","version":1}},"canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"a7f22d71628694ab87ac29ab751d8b6a4dcbe55c5ab1128023f7cc811b75f1a9","first_computed_at":"2026-05-17T23:39:11.321214Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:39:11.321214Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"LL5tlWL+t+QjVWl+j5LFjutsZYuvPNvGq8ATTyoptn3FUomn+YE7ZCoKT0swsvVqp4eSmnDBzJUua1pHqpxOAg==","signature_status":"signed_v1","signed_at":"2026-05-17T23:39:11.321934Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.14174","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:529137626a6933528367b3347e4630ca1c718a957d591c71a3986d5d32cb6c97","sha256:cf785e8f9faf7814417ddcda9dd5b46b856ba3a0eeeedbc760a5acc7c6bc129f"],"state_sha256":"2c94f4f292b4864a7c9f769fb0c46e9187ea093037cdc026ce1d37df8577a81e"}