{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2018:4MWB3EUFKGFSIKGLMBLE3Q2TCC","short_pith_number":"pith:4MWB3EUF","schema_version":"1.0","canonical_sha256":"e32c1d9285518b2428cb60564dc35310b36d51bc99faf3089ecf047ea38ca753","source":{"kind":"arxiv","id":"1811.04324","version":2},"attestation_state":"computed","paper":{"title":"Diversity-Driven Extensible Hierarchical Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Jianyi Wang, Mai Xu, Thomas Lukasiewicz, Yuhang Song, Zhenghua Xu","submitted_at":"2018-11-10T23:35:34Z","abstract_excerpt":"Hierarchical reinforcement learning (HRL) has recently shown promising advances on speeding up learning, improving the exploration, and discovering intertask transferable skills. Most recent works focus on HRL with two levels, i.e., a master policy manipulates subpolicies, which in turn manipulate primitive actions. However, HRL with multiple levels is usually needed in many real-world scenarios, whose ultimate goals are highly abstract, while their actions are very primitive. Therefore, in this paper, we propose a diversity-driven extensible HRL (DEHRL), where an extensible and scalable frame"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1811.04324","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-11-10T23:35:34Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"61cf76c181532a9b9b4e68f59d3f489279bcec7de9891c87b6f4efc1075e10c3","abstract_canon_sha256":"7478674c1ce3653f018b2d3064e803035fa26b61b77977cf745f867cdbbbe0ca"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:00:46.832519Z","signature_b64":"5lJdXK9UpcOZi9T3nd79tncy3hzDVUKYX+2lKtXchi6Y7t+CzjJTbmPtl6P8c+/DL7EQyuhDdA2HdI0Yu2QoCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e32c1d9285518b2428cb60564dc35310b36d51bc99faf3089ecf047ea38ca753","last_reissued_at":"2026-05-18T00:00:46.832089Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:00:46.832089Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Diversity-Driven Extensible Hierarchical Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Jianyi Wang, Mai Xu, Thomas Lukasiewicz, Yuhang Song, Zhenghua Xu","submitted_at":"2018-11-10T23:35:34Z","abstract_excerpt":"Hierarchical reinforcement learning (HRL) has recently shown promising advances on speeding up learning, improving the exploration, and discovering intertask transferable skills. Most recent works focus on HRL with two levels, i.e., a master policy manipulates subpolicies, which in turn manipulate primitive actions. However, HRL with multiple levels is usually needed in many real-world scenarios, whose ultimate goals are highly abstract, while their actions are very primitive. Therefore, in this paper, we propose a diversity-driven extensible HRL (DEHRL), where an extensible and scalable frame"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1811.04324","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1811.04324","created_at":"2026-05-18T00:00:46.832150+00:00"},{"alias_kind":"arxiv_version","alias_value":"1811.04324v2","created_at":"2026-05-18T00:00:46.832150+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1811.04324","created_at":"2026-05-18T00:00:46.832150+00:00"},{"alias_kind":"pith_short_12","alias_value":"4MWB3EUFKGFS","created_at":"2026-05-18T12:32:05.422762+00:00"},{"alias_kind":"pith_short_16","alias_value":"4MWB3EUFKGFSIKGL","created_at":"2026-05-18T12:32:05.422762+00:00"},{"alias_kind":"pith_short_8","alias_value":"4MWB3EUF","created_at":"2026-05-18T12:32:05.422762+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC","json":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC.json","graph_json":"https://pith.science/api/pith-number/4MWB3EUFKGFSIKGLMBLE3Q2TCC/graph.json","events_json":"https://pith.science/api/pith-number/4MWB3EUFKGFSIKGLMBLE3Q2TCC/events.json","paper":"https://pith.science/paper/4MWB3EUF"},"agent_actions":{"view_html":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC","download_json":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC.json","view_paper":"https://pith.science/paper/4MWB3EUF","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1811.04324&json=true","fetch_graph":"https://pith.science/api/pith-number/4MWB3EUFKGFSIKGLMBLE3Q2TCC/graph.json","fetch_events":"https://pith.science/api/pith-number/4MWB3EUFKGFSIKGLMBLE3Q2TCC/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC/action/timestamp_anchor","attest_storage":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC/action/storage_attestation","attest_author":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC/action/author_attestation","sign_citation":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC/action/citation_signature","submit_replication":"https://pith.science/pith/4MWB3EUFKGFSIKGLMBLE3Q2TCC/action/replication_record"}},"created_at":"2026-05-18T00:00:46.832150+00:00","updated_at":"2026-05-18T00:00:46.832150+00:00"}