{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:QLFH7ZVHKS4ZUSEJTLVZTSXQVU","short_pith_number":"pith:QLFH7ZVH","canonical_record":{"source":{"id":"1805.08296","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-21T21:33:44Z","cross_cats_sorted":["cs.AI","stat.ML"],"title_canon_sha256":"0d025e09d5d1dee241ac58e5771e88383a386dcbe15a23853a99ba7fad1aea84","abstract_canon_sha256":"7ba3970389e2746efaa633a688724bdd4e403e3f77138f2391333f8ccd6fa23a"},"schema_version":"1.0"},"canonical_sha256":"82ca7fe6a754b99a48899aeb99caf0ad0817ec77730aeca0d87095423f5fc735","source":{"kind":"arxiv","id":"1805.08296","version":4},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1805.08296","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"arxiv_version","alias_value":"1805.08296v4","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1805.08296","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"pith_short_12","alias_value":"QLFH7ZVHKS4Z","created_at":"2026-05-18T12:32:46Z"},{"alias_kind":"pith_short_16","alias_value":"QLFH7ZVHKS4ZUSEJ","created_at":"2026-05-18T12:32:46Z"},{"alias_kind":"pith_short_8","alias_value":"QLFH7ZVH","created_at":"2026-05-18T12:32:46Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:QLFH7ZVHKS4ZUSEJTLVZTSXQVU","target":"record","payload":{"canonical_record":{"source":{"id":"1805.08296","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-21T21:33:44Z","cross_cats_sorted":["cs.AI","stat.ML"],"title_canon_sha256":"0d025e09d5d1dee241ac58e5771e88383a386dcbe15a23853a99ba7fad1aea84","abstract_canon_sha256":"7ba3970389e2746efaa633a688724bdd4e403e3f77138f2391333f8ccd6fa23a"},"schema_version":"1.0"},"canonical_sha256":"82ca7fe6a754b99a48899aeb99caf0ad0817ec77730aeca0d87095423f5fc735","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:04:02.535803Z","signature_b64":"QLGQp2yQe24jzBVsI95rKKXDv76ExzqnyAZPiD+4Dqj2WpODXOXI4e0+cUfiKDk8ue6z0wOArKKHespofYq8DA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"82ca7fe6a754b99a48899aeb99caf0ad0817ec77730aeca0d87095423f5fc735","last_reissued_at":"2026-05-18T00:04:02.535164Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:04:02.535164Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1805.08296","source_version":4,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:04:02Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"Th6CNeY1009XO/bbuzHBG8M9i01O2nPznz1b4LS8S8KlgUllIxD5al1hB1RfltzX8/QG/skFxy9N6DCEzLxsBw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-27T02:18:25.657727Z"},"content_sha256":"c05a2a0dae689f4aabccfe4358b239c412b637c2dc8cdca322e4c808b8ed8b63","schema_version":"1.0","event_id":"sha256:c05a2a0dae689f4aabccfe4358b239c412b637c2dc8cdca322e4c808b8ed8b63"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:QLFH7ZVHKS4ZUSEJTLVZTSXQVU","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Data-Efficient Hierarchical Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","stat.ML"],"primary_cat":"cs.LG","authors_text":"Honglak Lee, Ofir Nachum, Sergey Levine, Shixiang Gu","submitted_at":"2018-05-21T21:33:44Z","abstract_excerpt":"Hierarchical reinforcement learning (HRL) is a promising approach to extend traditional reinforcement learning (RL) methods to solve more complex tasks. Yet, the majority of current HRL methods require careful task-specific design and on-policy training, making them difficult to apply in real-world scenarios. In this paper, we study how we can develop HRL algorithms that are general, in that they do not make onerous additional assumptions beyond standard RL algorithms, and efficient, in the sense that they can be used with modest numbers of interaction samples, making them suitable for real-wo"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1805.08296","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:04:02Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"uLSNkaB3QgF66yiKKNKhXEI1IPFQ5+yShooXi+neN4LrFsG9elrI6xhtaFM8nBwHDSccGevtaR9EQ2TPOtoFBg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-27T02:18:25.658470Z"},"content_sha256":"ac01b9e290000808970c6d6245a22845b814fc2e7ad19f22786fd1ff859202df","schema_version":"1.0","event_id":"sha256:ac01b9e290000808970c6d6245a22845b814fc2e7ad19f22786fd1ff859202df"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/bundle.json","state_url":"https://pith.science/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-27T02:18:25Z","links":{"resolver":"https://pith.science/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU","bundle":"https://pith.science/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/bundle.json","state":"https://pith.science/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/state.json","well_known_bundle":"https://pith.science/.well-known/pith/QLFH7ZVHKS4ZUSEJTLVZTSXQVU/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:QLFH7ZVHKS4ZUSEJTLVZTSXQVU","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"7ba3970389e2746efaa633a688724bdd4e403e3f77138f2391333f8ccd6fa23a","cross_cats_sorted":["cs.AI","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-21T21:33:44Z","title_canon_sha256":"0d025e09d5d1dee241ac58e5771e88383a386dcbe15a23853a99ba7fad1aea84"},"schema_version":"1.0","source":{"id":"1805.08296","kind":"arxiv","version":4}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1805.08296","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"arxiv_version","alias_value":"1805.08296v4","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1805.08296","created_at":"2026-05-18T00:04:02Z"},{"alias_kind":"pith_short_12","alias_value":"QLFH7ZVHKS4Z","created_at":"2026-05-18T12:32:46Z"},{"alias_kind":"pith_short_16","alias_value":"QLFH7ZVHKS4ZUSEJ","created_at":"2026-05-18T12:32:46Z"},{"alias_kind":"pith_short_8","alias_value":"QLFH7ZVH","created_at":"2026-05-18T12:32:46Z"}],"graph_snapshots":[{"event_id":"sha256:ac01b9e290000808970c6d6245a22845b814fc2e7ad19f22786fd1ff859202df","target":"graph","created_at":"2026-05-18T00:04:02Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Hierarchical reinforcement learning (HRL) is a promising approach to extend traditional reinforcement learning (RL) methods to solve more complex tasks. Yet, the majority of current HRL methods require careful task-specific design and on-policy training, making them difficult to apply in real-world scenarios. In this paper, we study how we can develop HRL algorithms that are general, in that they do not make onerous additional assumptions beyond standard RL algorithms, and efficient, in the sense that they can be used with modest numbers of interaction samples, making them suitable for real-wo","authors_text":"Honglak Lee, Ofir Nachum, Sergey Levine, Shixiang Gu","cross_cats":["cs.AI","stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-21T21:33:44Z","title":"Data-Efficient Hierarchical Reinforcement Learning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1805.08296","kind":"arxiv","version":4},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:c05a2a0dae689f4aabccfe4358b239c412b637c2dc8cdca322e4c808b8ed8b63","target":"record","created_at":"2026-05-18T00:04:02Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"7ba3970389e2746efaa633a688724bdd4e403e3f77138f2391333f8ccd6fa23a","cross_cats_sorted":["cs.AI","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-21T21:33:44Z","title_canon_sha256":"0d025e09d5d1dee241ac58e5771e88383a386dcbe15a23853a99ba7fad1aea84"},"schema_version":"1.0","source":{"id":"1805.08296","kind":"arxiv","version":4}},"canonical_sha256":"82ca7fe6a754b99a48899aeb99caf0ad0817ec77730aeca0d87095423f5fc735","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"82ca7fe6a754b99a48899aeb99caf0ad0817ec77730aeca0d87095423f5fc735","first_computed_at":"2026-05-18T00:04:02.535164Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:04:02.535164Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"QLGQp2yQe24jzBVsI95rKKXDv76ExzqnyAZPiD+4Dqj2WpODXOXI4e0+cUfiKDk8ue6z0wOArKKHespofYq8DA==","signature_status":"signed_v1","signed_at":"2026-05-18T00:04:02.535803Z","signed_message":"canonical_sha256_bytes"},"source_id":"1805.08296","source_kind":"arxiv","source_version":4}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:c05a2a0dae689f4aabccfe4358b239c412b637c2dc8cdca322e4c808b8ed8b63","sha256:ac01b9e290000808970c6d6245a22845b814fc2e7ad19f22786fd1ff859202df"],"state_sha256":"41f0e1577616a9b40728dd7ce6dd436def5d48d87d71def4f12db27db62f92c3"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"T9pJsgd2/LfD9ULv55puERxvpWvvge/gfzT6V8G489CL6o6T4KIXtA6CPXrLQoBse90Vl1yvZFADP7kWPeT/DA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-27T02:18:25.662603Z","bundle_sha256":"7bb8bc45adf5f8f281d181da4c7e6c7af06f6e06c0f29cb3b7dfdd5c68512a0b"}}