{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2017:HMIUHEJL2JDOK6XTF7QBOK4Q3W","short_pith_number":"pith:HMIUHEJL","canonical_record":{"source":{"id":"1709.06560","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2017-09-19T06:09:47Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"c1443531d38ed9fff775fc7a626af7e580fd36df441749ddffe6ea9309bae20b","abstract_canon_sha256":"a9b07e1c6fd8b38a56976b617408c547ae34d1b2087afd41f4bfb74ed8934829"},"schema_version":"1.0"},"canonical_sha256":"3b1143912bd246e57af32fe0172b90dd803b4375e5e949b43d398b4b13236b59","source":{"kind":"arxiv","id":"1709.06560","version":3},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1709.06560","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"arxiv_version","alias_value":"1709.06560v3","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1709.06560","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"pith_short_12","alias_value":"HMIUHEJL2JDO","created_at":"2026-05-18T12:31:18Z"},{"alias_kind":"pith_short_16","alias_value":"HMIUHEJL2JDOK6XT","created_at":"2026-05-18T12:31:18Z"},{"alias_kind":"pith_short_8","alias_value":"HMIUHEJL","created_at":"2026-05-18T12:31:18Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2017:HMIUHEJL2JDOK6XTF7QBOK4Q3W","target":"record","payload":{"canonical_record":{"source":{"id":"1709.06560","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2017-09-19T06:09:47Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"c1443531d38ed9fff775fc7a626af7e580fd36df441749ddffe6ea9309bae20b","abstract_canon_sha256":"a9b07e1c6fd8b38a56976b617408c547ae34d1b2087afd41f4bfb74ed8934829"},"schema_version":"1.0"},"canonical_sha256":"3b1143912bd246e57af32fe0172b90dd803b4375e5e949b43d398b4b13236b59","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:55:09.779689Z","signature_b64":"NgME/xipDJicw+q9S4EcMRNbk79zuOWDl7ln7PeulRFcTNtkp1B24hgstgxWG+cL8Esm2UUp8sJ02jM4uFpxDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"3b1143912bd246e57af32fe0172b90dd803b4375e5e949b43d398b4b13236b59","last_reissued_at":"2026-05-17T23:55:09.779248Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:55:09.779248Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1709.06560","source_version":3,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:55:09Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"LB0EbJJcjr8X40nc51kpTnI6vKGG08dGLSgP8Ei9evm/wEANDEqTOiGrJDf77/F3xUkmsAtkbMePVrR0LwpNAg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-07T01:21:12.800913Z"},"content_sha256":"8d9f28aadc934687bf1a3d0539c8a5bb770c2c886a2108c7da700c78140aa846","schema_version":"1.0","event_id":"sha256:8d9f28aadc934687bf1a3d0539c8a5bb770c2c886a2108c7da700c78140aa846"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2017:HMIUHEJL2JDOK6XTF7QBOK4Q3W","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Deep Reinforcement Learning that Matters","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"David Meger, Doina Precup, Joelle Pineau, Peter Henderson, Philip Bachman, Riashat Islam","submitted_at":"2017-09-19T06:09:47Z","abstract_excerpt":"In recent years, significant progress has been made in solving challenging problems across various domains using deep reinforcement learning (RL). Reproducing existing work and accurately judging the improvements offered by novel methods is vital to sustaining this progress. Unfortunately, reproducing results for state-of-the-art deep RL methods is seldom straightforward. In particular, non-determinism in standard benchmark environments, combined with variance intrinsic to the methods, can make reported results tough to interpret. Without significance metrics and tighter standardization of exp"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1709.06560","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:55:09Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"FvE+qsJbs31NIZ0bW2eM39A17+x8yN6h49CGXEGfUK+HMCeGbnHCsgzK5kH1sGAhulgflLsqAtIwkCMWPC05DA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-07T01:21:12.801560Z"},"content_sha256":"43a538e4d50b8db428fb95e0dce28cb973935d4bcf090f2cd07f900a8f60fa6f","schema_version":"1.0","event_id":"sha256:43a538e4d50b8db428fb95e0dce28cb973935d4bcf090f2cd07f900a8f60fa6f"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/bundle.json","state_url":"https://pith.science/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-07T01:21:12Z","links":{"resolver":"https://pith.science/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W","bundle":"https://pith.science/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/bundle.json","state":"https://pith.science/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/state.json","well_known_bundle":"https://pith.science/.well-known/pith/HMIUHEJL2JDOK6XTF7QBOK4Q3W/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2017:HMIUHEJL2JDOK6XTF7QBOK4Q3W","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"a9b07e1c6fd8b38a56976b617408c547ae34d1b2087afd41f4bfb74ed8934829","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2017-09-19T06:09:47Z","title_canon_sha256":"c1443531d38ed9fff775fc7a626af7e580fd36df441749ddffe6ea9309bae20b"},"schema_version":"1.0","source":{"id":"1709.06560","kind":"arxiv","version":3}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1709.06560","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"arxiv_version","alias_value":"1709.06560v3","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1709.06560","created_at":"2026-05-17T23:55:09Z"},{"alias_kind":"pith_short_12","alias_value":"HMIUHEJL2JDO","created_at":"2026-05-18T12:31:18Z"},{"alias_kind":"pith_short_16","alias_value":"HMIUHEJL2JDOK6XT","created_at":"2026-05-18T12:31:18Z"},{"alias_kind":"pith_short_8","alias_value":"HMIUHEJL","created_at":"2026-05-18T12:31:18Z"}],"graph_snapshots":[{"event_id":"sha256:43a538e4d50b8db428fb95e0dce28cb973935d4bcf090f2cd07f900a8f60fa6f","target":"graph","created_at":"2026-05-17T23:55:09Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"In recent years, significant progress has been made in solving challenging problems across various domains using deep reinforcement learning (RL). Reproducing existing work and accurately judging the improvements offered by novel methods is vital to sustaining this progress. Unfortunately, reproducing results for state-of-the-art deep RL methods is seldom straightforward. In particular, non-determinism in standard benchmark environments, combined with variance intrinsic to the methods, can make reported results tough to interpret. Without significance metrics and tighter standardization of exp","authors_text":"David Meger, Doina Precup, Joelle Pineau, Peter Henderson, Philip Bachman, Riashat Islam","cross_cats":["stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2017-09-19T06:09:47Z","title":"Deep Reinforcement Learning that Matters"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1709.06560","kind":"arxiv","version":3},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:8d9f28aadc934687bf1a3d0539c8a5bb770c2c886a2108c7da700c78140aa846","target":"record","created_at":"2026-05-17T23:55:09Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"a9b07e1c6fd8b38a56976b617408c547ae34d1b2087afd41f4bfb74ed8934829","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2017-09-19T06:09:47Z","title_canon_sha256":"c1443531d38ed9fff775fc7a626af7e580fd36df441749ddffe6ea9309bae20b"},"schema_version":"1.0","source":{"id":"1709.06560","kind":"arxiv","version":3}},"canonical_sha256":"3b1143912bd246e57af32fe0172b90dd803b4375e5e949b43d398b4b13236b59","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"3b1143912bd246e57af32fe0172b90dd803b4375e5e949b43d398b4b13236b59","first_computed_at":"2026-05-17T23:55:09.779248Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:55:09.779248Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"NgME/xipDJicw+q9S4EcMRNbk79zuOWDl7ln7PeulRFcTNtkp1B24hgstgxWG+cL8Esm2UUp8sJ02jM4uFpxDA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:55:09.779689Z","signed_message":"canonical_sha256_bytes"},"source_id":"1709.06560","source_kind":"arxiv","source_version":3}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:8d9f28aadc934687bf1a3d0539c8a5bb770c2c886a2108c7da700c78140aa846","sha256:43a538e4d50b8db428fb95e0dce28cb973935d4bcf090f2cd07f900a8f60fa6f"],"state_sha256":"d07f11c67feca27a43ea5e4f4106fb49fbaa28f5371228cef4ccc1815069d3d9"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"8W+RrwwULK0UJmaflTNuvty9PAxfXko5Oq0VX+Nh5hMHIGi6M/T+DVR2UXKcX9u/UJO5RhzeK/Udyshtn4TsDg==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-07T01:21:12.805180Z","bundle_sha256":"e6a0770b8ecaf4ce13483fce0b29d76ec222c2f9726818c9774fae261ca0a420"}}