{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2015:MZHKTPI4P25JGWF753KCKAHU3L","short_pith_number":"pith:MZHKTPI4","schema_version":"1.0","canonical_sha256":"664ea9bd1c7eba9358bfeed42500f4dad6d42931d7f3e8f7dacf8da7ea57aa4d","source":{"kind":"arxiv","id":"1511.05952","version":4},"attestation_state":"computed","paper":{"title":"Prioritized Experience Replay","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"David Silver, Ioannis Antonoglou, John Quan, Tom Schaul","submitted_at":"2015-11-18T20:54:44Z","abstract_excerpt":"Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance. In this paper we develop a framework for prioritizing experience, so as to replay important transitions more frequently, and therefore learn more efficiently. We use prioritized experience replay in Deep Q-Networks (DQN), a reinforcement learning algorithm that achi"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1511.05952","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2015-11-18T20:54:44Z","cross_cats_sorted":[],"title_canon_sha256":"c7fa449cdf7ed99a02d26c8bb7b03bedbfbb8dd789b862b7eb48a35ba0004664","abstract_canon_sha256":"abce482d96085da6ab3e9de627f2cffd47e9211383053b88cbb7d82586547e02"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T01:20:01.126092Z","signature_b64":"XJl8D3qf8rDRqrlOS29R/DeUNtigaw10yxllPjvW3/rOHz8V0uQJphRdpe34yvt9n+xCSNH4sCHq1CXcgQQkDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"664ea9bd1c7eba9358bfeed42500f4dad6d42931d7f3e8f7dacf8da7ea57aa4d","last_reissued_at":"2026-05-18T01:20:01.125362Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T01:20:01.125362Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Prioritized Experience Replay","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.LG","authors_text":"David Silver, Ioannis Antonoglou, John Quan, Tom Schaul","submitted_at":"2015-11-18T20:54:44Z","abstract_excerpt":"Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance. In this paper we develop a framework for prioritizing experience, so as to replay important transitions more frequently, and therefore learn more efficiently. We use prioritized experience replay in Deep Q-Networks (DQN), a reinforcement learning algorithm that achi"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1511.05952","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1511.05952","created_at":"2026-05-18T01:20:01.125494+00:00"},{"alias_kind":"arxiv_version","alias_value":"1511.05952v4","created_at":"2026-05-18T01:20:01.125494+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1511.05952","created_at":"2026-05-18T01:20:01.125494+00:00"},{"alias_kind":"pith_short_12","alias_value":"MZHKTPI4P25J","created_at":"2026-05-18T12:29:32.376354+00:00"},{"alias_kind":"pith_short_16","alias_value":"MZHKTPI4P25JGWF7","created_at":"2026-05-18T12:29:32.376354+00:00"},{"alias_kind":"pith_short_8","alias_value":"MZHKTPI4","created_at":"2026-05-18T12:29:32.376354+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":41,"internal_anchor_count":24,"sample":[{"citing_arxiv_id":"1906.08805","citing_title":"Finding Needles in a Moving Haystack: Prioritizing Alerts with Adversarial Reinforcement Learning","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"1906.08809","citing_title":"A Deep Reinforcement Learning Approach for Global Routing","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"1906.09205","citing_title":"Continual Reinforcement Learning with Diversity Exploration and Adversarial Self-Correction","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"1906.09734","citing_title":"Optimal Use of Experience in First Person Shooter Environments","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"1906.09781","citing_title":"In Hindsight: A Smooth Reward for Steady Exploration","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"1906.11046","citing_title":"Multi-Agent Deep Reinforcement Learning for Liquidation Strategy Analysis","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"1906.10124","citing_title":"On Multi-Agent Learning in Team Sports Games","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"1907.03116","citing_title":"Intrinsic Motivation Driven Intuitive Physics Learning using Deep Reinforcement Learning with Intrinsic Reward Normalization","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"1907.06396","citing_title":"A Dual Memory Structure for Efficient Use of Replay Memory in Deep Reinforcement Learning","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"1907.08040","citing_title":"Convolutional Reservoir Computing for World Models","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2411.03926","citing_title":"Act in Collusion: Distributed Multi-Target Backdoor Attacks in Federated Learning","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2502.12272","citing_title":"Learning to Reason at the Frontier of Learnability","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2502.15792","citing_title":"Reinforcement Learning for Testing Interdependent Requirements in Autonomous Vehicles: An Empirical Study","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2504.13818","citing_title":"Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2505.11708","citing_title":"Unveiling the Black Box: A Multi-Layer Framework for Explaining Reinforcement Learning-Based Cyber Agents","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10236","citing_title":"When Does Non-Uniform Replay Matter in Reinforcement Learning?","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19592","citing_title":"Implicit Action Chunking for Smooth Continuous Control","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15400","citing_title":"Beyond Partner Diversity: An Influence-Based Team Steering Framework for Zero-Shot Human-Machine Teaming","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2502.10248","citing_title":"Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model","ref_index":270,"is_internal_anchor":true},{"citing_arxiv_id":"2507.05561","citing_title":"Preemptive Solving of Future Problems: Multitask Preplay in Humans and Machines","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2601.05249","citing_title":"RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes","ref_index":86,"is_internal_anchor":true},{"citing_arxiv_id":"2601.06540","citing_title":"Self-Organizing Dual-Buffer Adaptive Clustering Experience Replay (SODACER) for Safe Reinforcement Learning in Optimal Control","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2309.16797","citing_title":"Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution","ref_index":287,"is_internal_anchor":true},{"citing_arxiv_id":"2010.02193","citing_title":"Mastering Atari with Discrete World Models","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"1801.00690","citing_title":"DeepMind Control Suite","ref_index":11,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L","json":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L.json","graph_json":"https://pith.science/api/pith-number/MZHKTPI4P25JGWF753KCKAHU3L/graph.json","events_json":"https://pith.science/api/pith-number/MZHKTPI4P25JGWF753KCKAHU3L/events.json","paper":"https://pith.science/paper/MZHKTPI4"},"agent_actions":{"view_html":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L","download_json":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L.json","view_paper":"https://pith.science/paper/MZHKTPI4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1511.05952&json=true","fetch_graph":"https://pith.science/api/pith-number/MZHKTPI4P25JGWF753KCKAHU3L/graph.json","fetch_events":"https://pith.science/api/pith-number/MZHKTPI4P25JGWF753KCKAHU3L/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L/action/timestamp_anchor","attest_storage":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L/action/storage_attestation","attest_author":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L/action/author_attestation","sign_citation":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L/action/citation_signature","submit_replication":"https://pith.science/pith/MZHKTPI4P25JGWF753KCKAHU3L/action/replication_record"}},"created_at":"2026-05-18T01:20:01.125494+00:00","updated_at":"2026-05-18T01:20:01.125494+00:00"}