{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:FSBD7E2EHDWDI5AZUNUBCNRC7C","short_pith_number":"pith:FSBD7E2E","canonical_record":{"source":{"id":"1811.06187","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2018-11-15T05:26:38Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"2f2a5ba2e7216f5bd30de08f1db246ebb0c64591b9b8909d42e68deae2757c95","abstract_canon_sha256":"196d6830b0bf6f3f1e8987a92a0f3646355bcf0165d082120732e64d0bca8e69"},"schema_version":"1.0"},"canonical_sha256":"2c823f934438ec347419a368113622f8af75070f28ac6009a100b5985bde13dc","source":{"kind":"arxiv","id":"1811.06187","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1811.06187","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"arxiv_version","alias_value":"1811.06187v1","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1811.06187","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"pith_short_12","alias_value":"FSBD7E2EHDWD","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_16","alias_value":"FSBD7E2EHDWDI5AZ","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_8","alias_value":"FSBD7E2E","created_at":"2026-05-18T12:32:25Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:FSBD7E2EHDWDI5AZUNUBCNRC7C","target":"record","payload":{"canonical_record":{"source":{"id":"1811.06187","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2018-11-15T05:26:38Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"2f2a5ba2e7216f5bd30de08f1db246ebb0c64591b9b8909d42e68deae2757c95","abstract_canon_sha256":"196d6830b0bf6f3f1e8987a92a0f3646355bcf0165d082120732e64d0bca8e69"},"schema_version":"1.0"},"canonical_sha256":"2c823f934438ec347419a368113622f8af75070f28ac6009a100b5985bde13dc","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:00:38.407042Z","signature_b64":"I1pbfch6G+9yhQtUTn5UfDVxpFal938RE46MaVogmOtunhDpNKjrD+JlfVm7wWXfNf7aoxpdV9RP0zwG9gsFDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2c823f934438ec347419a368113622f8af75070f28ac6009a100b5985bde13dc","last_reissued_at":"2026-05-18T00:00:38.406451Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:00:38.406451Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1811.06187","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:00:38Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"ULo0wH4dRaaBlaOTJYOQ2ZmXEKsCCDM43DnRzlYVaoTaJF0ANRDud55UCPd20i3amBTjW/8IEsrXUyhQxoHQAQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-20T21:33:15.503935Z"},"content_sha256":"8a3a5dfed069e4eccb6975b2216e61bc33c9d5bd86157ea78b7505d3625a92a9","schema_version":"1.0","event_id":"sha256:8a3a5dfed069e4eccb6975b2216e61bc33c9d5bd86157ea78b7505d3625a92a9"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:FSBD7E2EHDWDI5AZUNUBCNRC7C","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Intervention Aided Reinforcement Learning for Safe and Practical Policy Optimization in Navigation","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Bo Zhou, Fan Wang, Hao Tian, Jiangyong Li, Jia Pan, Ke Chen, Tingxiang Fan, Xi Zhang","submitted_at":"2018-11-15T05:26:38Z","abstract_excerpt":"Combining deep neural networks with reinforcement learning has shown great potential in the next-generation intelligent control. However, there are challenges in terms of safety and cost in practical applications. In this paper, we propose the Intervention Aided Reinforcement Learning (IARL) framework, which utilizes human intervened robot-environment interaction to improve the policy. We used the Unmanned Aerial Vehicle (UAV) as the test platform. We built neural networks as our policy to map sensor readings to control signals on the UAV. Our experiment scenarios cover both simulation and rea"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1811.06187","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:00:38Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"7eOPBBrWniirRBIA9Z6tQ9mS091kAN/bRSzrowZtW24ccDXNMsWBGqmwUHph/mOEhLCvZHvVqPD5fPra68JRCQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-20T21:33:15.504285Z"},"content_sha256":"c1792bf365c38eedda83460f9e33510acca142ec31296d22d8da3ee9ab13f3e0","schema_version":"1.0","event_id":"sha256:c1792bf365c38eedda83460f9e33510acca142ec31296d22d8da3ee9ab13f3e0"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/bundle.json","state_url":"https://pith.science/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-20T21:33:15Z","links":{"resolver":"https://pith.science/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C","bundle":"https://pith.science/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/bundle.json","state":"https://pith.science/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/state.json","well_known_bundle":"https://pith.science/.well-known/pith/FSBD7E2EHDWDI5AZUNUBCNRC7C/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:FSBD7E2EHDWDI5AZUNUBCNRC7C","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"196d6830b0bf6f3f1e8987a92a0f3646355bcf0165d082120732e64d0bca8e69","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2018-11-15T05:26:38Z","title_canon_sha256":"2f2a5ba2e7216f5bd30de08f1db246ebb0c64591b9b8909d42e68deae2757c95"},"schema_version":"1.0","source":{"id":"1811.06187","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1811.06187","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"arxiv_version","alias_value":"1811.06187v1","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1811.06187","created_at":"2026-05-18T00:00:38Z"},{"alias_kind":"pith_short_12","alias_value":"FSBD7E2EHDWD","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_16","alias_value":"FSBD7E2EHDWDI5AZ","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_8","alias_value":"FSBD7E2E","created_at":"2026-05-18T12:32:25Z"}],"graph_snapshots":[{"event_id":"sha256:c1792bf365c38eedda83460f9e33510acca142ec31296d22d8da3ee9ab13f3e0","target":"graph","created_at":"2026-05-18T00:00:38Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Combining deep neural networks with reinforcement learning has shown great potential in the next-generation intelligent control. However, there are challenges in terms of safety and cost in practical applications. In this paper, we propose the Intervention Aided Reinforcement Learning (IARL) framework, which utilizes human intervened robot-environment interaction to improve the policy. We used the Unmanned Aerial Vehicle (UAV) as the test platform. We built neural networks as our policy to map sensor readings to control signals on the UAV. Our experiment scenarios cover both simulation and rea","authors_text":"Bo Zhou, Fan Wang, Hao Tian, Jiangyong Li, Jia Pan, Ke Chen, Tingxiang Fan, Xi Zhang","cross_cats":["cs.AI"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2018-11-15T05:26:38Z","title":"Intervention Aided Reinforcement Learning for Safe and Practical Policy Optimization in Navigation"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1811.06187","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:8a3a5dfed069e4eccb6975b2216e61bc33c9d5bd86157ea78b7505d3625a92a9","target":"record","created_at":"2026-05-18T00:00:38Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"196d6830b0bf6f3f1e8987a92a0f3646355bcf0165d082120732e64d0bca8e69","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2018-11-15T05:26:38Z","title_canon_sha256":"2f2a5ba2e7216f5bd30de08f1db246ebb0c64591b9b8909d42e68deae2757c95"},"schema_version":"1.0","source":{"id":"1811.06187","kind":"arxiv","version":1}},"canonical_sha256":"2c823f934438ec347419a368113622f8af75070f28ac6009a100b5985bde13dc","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2c823f934438ec347419a368113622f8af75070f28ac6009a100b5985bde13dc","first_computed_at":"2026-05-18T00:00:38.406451Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:00:38.406451Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"I1pbfch6G+9yhQtUTn5UfDVxpFal938RE46MaVogmOtunhDpNKjrD+JlfVm7wWXfNf7aoxpdV9RP0zwG9gsFDQ==","signature_status":"signed_v1","signed_at":"2026-05-18T00:00:38.407042Z","signed_message":"canonical_sha256_bytes"},"source_id":"1811.06187","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:8a3a5dfed069e4eccb6975b2216e61bc33c9d5bd86157ea78b7505d3625a92a9","sha256:c1792bf365c38eedda83460f9e33510acca142ec31296d22d8da3ee9ab13f3e0"],"state_sha256":"845f1afb57bfc84e9b995d225fdc1f071f94d8926a6ac286d41c9bea2e31a34f"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"CV204wlwgglfmCJepUGjONFCQrB9rnu+VVm9ys9SzvV9ZgI45mBx9CyvqwJ5GLef/G0Ru4o8NPyjipJxO6NtBA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-20T21:33:15.506503Z","bundle_sha256":"16c35d6badc12b79bdcf14de74ffb9cf09448024a32ed31609fd24b40762f7c4"}}