{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2019:NIPJBPJDHL2XISJY7PYWYJAVZJ","short_pith_number":"pith:NIPJBPJD","schema_version":"1.0","canonical_sha256":"6a1e90bd233af5744938fbf16c2415ca5c95514e6a047f89d23a2ec8bb505801","source":{"kind":"arxiv","id":"1905.06527","version":3},"attestation_state":"computed","paper":{"title":"Meta Reinforcement Learning with Task Embedding and Shared Policy","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","stat.ML"],"primary_cat":"cs.LG","authors_text":"Lin Lan, Pinghui Wang, Xiaohong Guan, Zhenguo Li","submitted_at":"2019-05-16T04:42:25Z","abstract_excerpt":"Despite significant progress, deep reinforcement learning (RL) suffers from data-inefficiency and limited generalization. Recent efforts apply meta-learning to learn a meta-learner from a set of RL tasks such that a novel but related task could be solved quickly. Though specific in some ways, different tasks in meta-RL are generally similar at a high level. However, most meta-RL methods do not explicitly and adequately model the specific and shared information among different tasks, which limits their ability to learn training tasks and to generalize to novel tasks. In this paper, we propose t"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1905.06527","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-16T04:42:25Z","cross_cats_sorted":["cs.AI","stat.ML"],"title_canon_sha256":"d416a87741089c9271012ae76328107f3063b391c60c2c410192ca69fe52f05f","abstract_canon_sha256":"d02cb19bd085107b0bd2e0688ec7bc87b42b6caca6e4ae923137548a5a7cf555"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:44:18.594562Z","signature_b64":"yT4t96pqAchX0VOa9U7KxK2iMPmrXOyaBk3GqhRaJ6r/PSNgs8HZ1EPX42F4RKsfg/RuYYZ64IxrxtknXlCMBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"6a1e90bd233af5744938fbf16c2415ca5c95514e6a047f89d23a2ec8bb505801","last_reissued_at":"2026-05-17T23:44:18.593995Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:44:18.593995Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Meta Reinforcement Learning with Task Embedding and Shared Policy","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","stat.ML"],"primary_cat":"cs.LG","authors_text":"Lin Lan, Pinghui Wang, Xiaohong Guan, Zhenguo Li","submitted_at":"2019-05-16T04:42:25Z","abstract_excerpt":"Despite significant progress, deep reinforcement learning (RL) suffers from data-inefficiency and limited generalization. Recent efforts apply meta-learning to learn a meta-learner from a set of RL tasks such that a novel but related task could be solved quickly. Though specific in some ways, different tasks in meta-RL are generally similar at a high level. However, most meta-RL methods do not explicitly and adequately model the specific and shared information among different tasks, which limits their ability to learn training tasks and to generalize to novel tasks. In this paper, we propose t"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1905.06527","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1905.06527","created_at":"2026-05-17T23:44:18.594082+00:00"},{"alias_kind":"arxiv_version","alias_value":"1905.06527v3","created_at":"2026-05-17T23:44:18.594082+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1905.06527","created_at":"2026-05-17T23:44:18.594082+00:00"},{"alias_kind":"pith_short_12","alias_value":"NIPJBPJDHL2X","created_at":"2026-05-18T12:33:24.271573+00:00"},{"alias_kind":"pith_short_16","alias_value":"NIPJBPJDHL2XISJY","created_at":"2026-05-18T12:33:24.271573+00:00"},{"alias_kind":"pith_short_8","alias_value":"NIPJBPJD","created_at":"2026-05-18T12:33:24.271573+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":2,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2502.02834","citing_title":"Task-Aware Virtual Training: Enhancing Generalization in Meta-Reinforcement Learning for Out-of-Distribution Tasks","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03449","citing_title":"Neural Operators for Multi-Task Control and Adaptation","ref_index":10,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ","json":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ.json","graph_json":"https://pith.science/api/pith-number/NIPJBPJDHL2XISJY7PYWYJAVZJ/graph.json","events_json":"https://pith.science/api/pith-number/NIPJBPJDHL2XISJY7PYWYJAVZJ/events.json","paper":"https://pith.science/paper/NIPJBPJD"},"agent_actions":{"view_html":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ","download_json":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ.json","view_paper":"https://pith.science/paper/NIPJBPJD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1905.06527&json=true","fetch_graph":"https://pith.science/api/pith-number/NIPJBPJDHL2XISJY7PYWYJAVZJ/graph.json","fetch_events":"https://pith.science/api/pith-number/NIPJBPJDHL2XISJY7PYWYJAVZJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ/action/storage_attestation","attest_author":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ/action/author_attestation","sign_citation":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ/action/citation_signature","submit_replication":"https://pith.science/pith/NIPJBPJDHL2XISJY7PYWYJAVZJ/action/replication_record"}},"created_at":"2026-05-17T23:44:18.594082+00:00","updated_at":"2026-05-17T23:44:18.594082+00:00"}