{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2019:IVR3MYMV6K3C4KQ6LQB3M74YPH","short_pith_number":"pith:IVR3MYMV","canonical_record":{"source":{"id":"1905.05809","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-14T19:33:45Z","cross_cats_sorted":["cs.AI","stat.ML"],"title_canon_sha256":"c076f7398643e6ba9ffeb840ef50b834c62948a5330dd06f7b855263dd0162b0","abstract_canon_sha256":"3a3e70875f0b00ec849322b28529b416f42a61ace316d639264011f6ff741762"},"schema_version":"1.0"},"canonical_sha256":"4563b66195f2b62e2a1e5c03b67f9879f316c2833ef58d40d2eb0ef2a1b40ea9","source":{"kind":"arxiv","id":"1905.05809","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1905.05809","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"arxiv_version","alias_value":"1905.05809v1","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1905.05809","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"pith_short_12","alias_value":"IVR3MYMV6K3C","created_at":"2026-05-18T12:33:18Z"},{"alias_kind":"pith_short_16","alias_value":"IVR3MYMV6K3C4KQ6","created_at":"2026-05-18T12:33:18Z"},{"alias_kind":"pith_short_8","alias_value":"IVR3MYMV","created_at":"2026-05-18T12:33:18Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2019:IVR3MYMV6K3C4KQ6LQB3M74YPH","target":"record","payload":{"canonical_record":{"source":{"id":"1905.05809","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-14T19:33:45Z","cross_cats_sorted":["cs.AI","stat.ML"],"title_canon_sha256":"c076f7398643e6ba9ffeb840ef50b834c62948a5330dd06f7b855263dd0162b0","abstract_canon_sha256":"3a3e70875f0b00ec849322b28529b416f42a61ace316d639264011f6ff741762"},"schema_version":"1.0"},"canonical_sha256":"4563b66195f2b62e2a1e5c03b67f9879f316c2833ef58d40d2eb0ef2a1b40ea9","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:46:08.476987Z","signature_b64":"mxMjXXg8mM9Ju0dP0psKlsfVZ3UczsRJEpUqZ0QS7rd3ctVnk2MJ+Xiz/6PTx6qCUfVH7AqPjeQ+MRk3hDYVDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"4563b66195f2b62e2a1e5c03b67f9879f316c2833ef58d40d2eb0ef2a1b40ea9","last_reissued_at":"2026-05-17T23:46:08.476436Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:46:08.476436Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1905.05809","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:46:08Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"d/2IzWJMlGRzRcdZMrbPD1NSC+EtDX0PJ78TPVjOW/wcDh/CkSelQ+s3bgCixxVrJLeTf/CmogdvMkdpxEusAg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-08T15:08:49.290016Z"},"content_sha256":"e23e743e310d26fab598f569bc86e25fcaaf2ecb1192b78e9f3a5d15cdaddd88","schema_version":"1.0","event_id":"sha256:e23e743e310d26fab598f569bc86e25fcaaf2ecb1192b78e9f3a5d15cdaddd88"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2019:IVR3MYMV6K3C4KQ6LQB3M74YPH","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Learning Policies from Self-Play with Policy Gradients and MCTS Value Estimates","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","stat.ML"],"primary_cat":"cs.LG","authors_text":"Cameron Browne, Dennis J. N. J. Soemers, \\'Eric Piette, Matthew Stephenson","submitted_at":"2019-05-14T19:33:45Z","abstract_excerpt":"In recent years, state-of-the-art game-playing agents often involve policies that are trained in self-playing processes where Monte Carlo tree search (MCTS) algorithms and trained policies iteratively improve each other. The strongest results have been obtained when policies are trained to mimic the search behaviour of MCTS by minimising a cross-entropy loss. Because MCTS, by design, includes an element of exploration, policies trained in this manner are also likely to exhibit a similar extent of exploration. In this paper, we are interested in learning policies for a project with future goals"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1905.05809","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:46:08Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"7iitzHr4kd4AaRpluVpsMjFYDR4kzla0ih2Ft/UsyK4YgdJP7BtubfdQetk6TsETEVf14ixGBgxXZk6sIFJIBw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-08T15:08:49.290704Z"},"content_sha256":"4fcd8465c24765bcebfb380a1f153960d44dc37378f53b2b74d9328dffd27118","schema_version":"1.0","event_id":"sha256:4fcd8465c24765bcebfb380a1f153960d44dc37378f53b2b74d9328dffd27118"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/bundle.json","state_url":"https://pith.science/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-08T15:08:49Z","links":{"resolver":"https://pith.science/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH","bundle":"https://pith.science/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/bundle.json","state":"https://pith.science/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/state.json","well_known_bundle":"https://pith.science/.well-known/pith/IVR3MYMV6K3C4KQ6LQB3M74YPH/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2019:IVR3MYMV6K3C4KQ6LQB3M74YPH","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"3a3e70875f0b00ec849322b28529b416f42a61ace316d639264011f6ff741762","cross_cats_sorted":["cs.AI","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-14T19:33:45Z","title_canon_sha256":"c076f7398643e6ba9ffeb840ef50b834c62948a5330dd06f7b855263dd0162b0"},"schema_version":"1.0","source":{"id":"1905.05809","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1905.05809","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"arxiv_version","alias_value":"1905.05809v1","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1905.05809","created_at":"2026-05-17T23:46:08Z"},{"alias_kind":"pith_short_12","alias_value":"IVR3MYMV6K3C","created_at":"2026-05-18T12:33:18Z"},{"alias_kind":"pith_short_16","alias_value":"IVR3MYMV6K3C4KQ6","created_at":"2026-05-18T12:33:18Z"},{"alias_kind":"pith_short_8","alias_value":"IVR3MYMV","created_at":"2026-05-18T12:33:18Z"}],"graph_snapshots":[{"event_id":"sha256:4fcd8465c24765bcebfb380a1f153960d44dc37378f53b2b74d9328dffd27118","target":"graph","created_at":"2026-05-17T23:46:08Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"In recent years, state-of-the-art game-playing agents often involve policies that are trained in self-playing processes where Monte Carlo tree search (MCTS) algorithms and trained policies iteratively improve each other. The strongest results have been obtained when policies are trained to mimic the search behaviour of MCTS by minimising a cross-entropy loss. Because MCTS, by design, includes an element of exploration, policies trained in this manner are also likely to exhibit a similar extent of exploration. In this paper, we are interested in learning policies for a project with future goals","authors_text":"Cameron Browne, Dennis J. N. J. Soemers, \\'Eric Piette, Matthew Stephenson","cross_cats":["cs.AI","stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-14T19:33:45Z","title":"Learning Policies from Self-Play with Policy Gradients and MCTS Value Estimates"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1905.05809","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:e23e743e310d26fab598f569bc86e25fcaaf2ecb1192b78e9f3a5d15cdaddd88","target":"record","created_at":"2026-05-17T23:46:08Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"3a3e70875f0b00ec849322b28529b416f42a61ace316d639264011f6ff741762","cross_cats_sorted":["cs.AI","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2019-05-14T19:33:45Z","title_canon_sha256":"c076f7398643e6ba9ffeb840ef50b834c62948a5330dd06f7b855263dd0162b0"},"schema_version":"1.0","source":{"id":"1905.05809","kind":"arxiv","version":1}},"canonical_sha256":"4563b66195f2b62e2a1e5c03b67f9879f316c2833ef58d40d2eb0ef2a1b40ea9","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"4563b66195f2b62e2a1e5c03b67f9879f316c2833ef58d40d2eb0ef2a1b40ea9","first_computed_at":"2026-05-17T23:46:08.476436Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:46:08.476436Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"mxMjXXg8mM9Ju0dP0psKlsfVZ3UczsRJEpUqZ0QS7rd3ctVnk2MJ+Xiz/6PTx6qCUfVH7AqPjeQ+MRk3hDYVDA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:46:08.476987Z","signed_message":"canonical_sha256_bytes"},"source_id":"1905.05809","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:e23e743e310d26fab598f569bc86e25fcaaf2ecb1192b78e9f3a5d15cdaddd88","sha256:4fcd8465c24765bcebfb380a1f153960d44dc37378f53b2b74d9328dffd27118"],"state_sha256":"3badf671720b9fa3c255dce9b517d3057cc4828dcda4349e065e35644a4bcd06"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"fVInFSumfWjvb9p+RDma/s5wObnbx/sipERupgGhr6oH1TablbnMAJzIMmVrT70w/Owjv0bEQFt/JeYEoPMwCQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-08T15:08:49.294565Z","bundle_sha256":"1c635a2ac7f2fcf8e31b4e1d8643c8ca8ac7613fefef0f878f99c98f2d315e81"}}