{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:3FOAVUBRTBFOROBBBZFMLQU7BT","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"c61fe2d228388e8a7e70711de2eec42e141b5d8ffe1282da4731a824e343bed7","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-15T14:02:34Z","title_canon_sha256":"fe9c38f39783e64f954d539d411760806fe4e3852dae824c851d5f6a1a5b0e99"},"schema_version":"1.0","source":{"id":"2605.15971","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.15971","created_at":"2026-05-20T00:01:47Z"},{"alias_kind":"arxiv_version","alias_value":"2605.15971v1","created_at":"2026-05-20T00:01:47Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.15971","created_at":"2026-05-20T00:01:47Z"},{"alias_kind":"pith_short_12","alias_value":"3FOAVUBRTBFO","created_at":"2026-05-20T00:01:47Z"},{"alias_kind":"pith_short_16","alias_value":"3FOAVUBRTBFOROBB","created_at":"2026-05-20T00:01:47Z"},{"alias_kind":"pith_short_8","alias_value":"3FOAVUBR","created_at":"2026-05-20T00:01:47Z"}],"graph_snapshots":[{"event_id":"sha256:b3178d4c959d1d84ff258aff73a22b27b3c03b8bbcaa1527e2755edd5a1f49f8","target":"graph","created_at":"2026-05-20T00:01:47Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-19T17:33:44.868224Z","status":"skipped","version":"1.0.0"},{"findings_count":0,"name":"claim_evidence","ran_at":"2026-05-19T17:01:55.689045Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2605.15971/integrity.json","findings":[],"snapshot_sha256":"465b4c6a08c71aea70a9e3457f6af19da506e9ccc69e682c103e27e745ec1a65","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"While reinforcement learning (RL) enables robots to acquire skills autonomously, its real-world deployment is severely limited by inefficient and unsafe exploration. Human-in-the-loop interventions offer a practical solution, yet existing methods typically exploit these interventions as auxiliary training signals, without fully capturing the richer information they provide about when and how autonomy should be guided.\n  Human interventions often encode relative preferences over behavior under safety and task constraints, rather than prescribing exact actions to imitate. Motivated by this persp","authors_text":"Jian Li (1), Qiwei Wu (1), Renjing Xu (1) ((1) The Hong Kong University of Science, Technology (Guangzhou)), Yihang Kang (1), Yunyang Mo (1)","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-15T14:02:34Z","title":"OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.15971","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:f17c921db5b5c55265343cea137fd76abcc411c9ebae24a2dc10b726f4e6a5c4","target":"record","created_at":"2026-05-20T00:01:47Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"c61fe2d228388e8a7e70711de2eec42e141b5d8ffe1282da4731a824e343bed7","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-05-15T14:02:34Z","title_canon_sha256":"fe9c38f39783e64f954d539d411760806fe4e3852dae824c851d5f6a1a5b0e99"},"schema_version":"1.0","source":{"id":"2605.15971","kind":"arxiv","version":1}},"canonical_sha256":"d95c0ad031984ae8b8210e4ac5c29f0cc3a63752febc2f3b8b8546acfc267d6b","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"d95c0ad031984ae8b8210e4ac5c29f0cc3a63752febc2f3b8b8546acfc267d6b","first_computed_at":"2026-05-20T00:01:47.153646Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T00:01:47.153646Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"NFRICKR6xX+n2ySIpIWjJJhcqdyCQnQVWGYzHcD2WetArJvgQ8iNHyWuQS+gsgwDKUZLt6Q7YzHAThK97JYKCg==","signature_status":"signed_v1","signed_at":"2026-05-20T00:01:47.154161Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.15971","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:f17c921db5b5c55265343cea137fd76abcc411c9ebae24a2dc10b726f4e6a5c4","sha256:b3178d4c959d1d84ff258aff73a22b27b3c03b8bbcaa1527e2755edd5a1f49f8"],"state_sha256":"aa5164cc10101ba1d0e7781764c282425d8ca24a61eaf4fa3b776c462c5df7e6"}