{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:K6ZCRHHY2BKPC3TXUCYJIFMK7V","short_pith_number":"pith:K6ZCRHHY","canonical_record":{"source":{"id":"1806.00175","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-06-01T02:54:06Z","cross_cats_sorted":[],"title_canon_sha256":"bb486eb1de679bdcf37178df01da33db1fa9cc8b948a4bcd0e63b001fa2f1f83","abstract_canon_sha256":"3a77b415028c12a84f0849ac0887fc81e4c7f2030a5d959f8b17935c29a87612"},"schema_version":"1.0"},"canonical_sha256":"57b2289cf8d054f16e77a0b094158afd6681e762bb396dbbeeaecb5e551f5feb","source":{"kind":"arxiv","id":"1806.00175","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1806.00175","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"arxiv_version","alias_value":"1806.00175v2","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1806.00175","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"pith_short_12","alias_value":"K6ZCRHHY2BKP","created_at":"2026-05-18T12:32:33Z"},{"alias_kind":"pith_short_16","alias_value":"K6ZCRHHY2BKPC3TX","created_at":"2026-05-18T12:32:33Z"},{"alias_kind":"pith_short_8","alias_value":"K6ZCRHHY","created_at":"2026-05-18T12:32:33Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:K6ZCRHHY2BKPC3TXUCYJIFMK7V","target":"record","payload":{"canonical_record":{"source":{"id":"1806.00175","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-06-01T02:54:06Z","cross_cats_sorted":[],"title_canon_sha256":"bb486eb1de679bdcf37178df01da33db1fa9cc8b948a4bcd0e63b001fa2f1f83","abstract_canon_sha256":"3a77b415028c12a84f0849ac0887fc81e4c7f2030a5d959f8b17935c29a87612"},"schema_version":"1.0"},"canonical_sha256":"57b2289cf8d054f16e77a0b094158afd6681e762bb396dbbeeaecb5e551f5feb","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:00:02.055748Z","signature_b64":"nPV/Kf2ltUUINCt8ENUArQQGV5KajXc5NUVODi9zDay++Rlcc+qMTa0KvGiXGk60vll2spZakW0wf7OczzpEDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"57b2289cf8d054f16e77a0b094158afd6681e762bb396dbbeeaecb5e551f5feb","last_reissued_at":"2026-05-18T00:00:02.054887Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:00:02.054887Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1806.00175","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:00:02Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"6YvedsW9zLVURuLS1RbtIceRyrx+dId/a75Dk/gGp8Qsn7I5iEkMYetBbylCBmZCNXD1XrjLzY91R1pi2ygnCA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-09T16:05:22.439420Z"},"content_sha256":"ef4775e994b907ee04585911684e32c5a35f3603e6663f2c88c1e817c4ae8e52","schema_version":"1.0","event_id":"sha256:ef4775e994b907ee04585911684e32c5a35f3603e6663f2c88c1e817c4ae8e52"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:K6ZCRHHY2BKPC3TXUCYJIFMK7V","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Fast Exploration with Simplified Models and Approximately Optimistic Planning in Model Based Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Emma Brunskill, Jay Whang, Patrick Cho, Ramtin Keramati","submitted_at":"2018-06-01T02:54:06Z","abstract_excerpt":"Humans learn to play video games significantly faster than the state-of-the-art reinforcement learning (RL) algorithms. People seem to build simple models that are easy to learn to support planning and strategic exploration. Inspired by this, we investigate two issues in leveraging model-based RL for sample efficiency. First we investigate how to perform strategic exploration when exact planning is not feasible and empirically show that optimistic Monte Carlo Tree Search outperforms posterior sampling methods. Second we show how to learn simple deterministic models to support fast learning usi"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1806.00175","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:00:02Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"vjFBRKBjjnusYIOLyc1IlLexv5CXE05wCaTcgssltG7XhkIoiF0BZSC31Suze+BNWaHrTqPmGfDCoqrMIenvCA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-09T16:05:22.440063Z"},"content_sha256":"215436a5cbbc2eade4f9d32f19e7c86ed60f282ba6ec2b193ab7232d2ca41b58","schema_version":"1.0","event_id":"sha256:215436a5cbbc2eade4f9d32f19e7c86ed60f282ba6ec2b193ab7232d2ca41b58"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/bundle.json","state_url":"https://pith.science/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-09T16:05:22Z","links":{"resolver":"https://pith.science/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V","bundle":"https://pith.science/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/bundle.json","state":"https://pith.science/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/state.json","well_known_bundle":"https://pith.science/.well-known/pith/K6ZCRHHY2BKPC3TXUCYJIFMK7V/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:K6ZCRHHY2BKPC3TXUCYJIFMK7V","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"3a77b415028c12a84f0849ac0887fc81e4c7f2030a5d959f8b17935c29a87612","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-06-01T02:54:06Z","title_canon_sha256":"bb486eb1de679bdcf37178df01da33db1fa9cc8b948a4bcd0e63b001fa2f1f83"},"schema_version":"1.0","source":{"id":"1806.00175","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1806.00175","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"arxiv_version","alias_value":"1806.00175v2","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1806.00175","created_at":"2026-05-18T00:00:02Z"},{"alias_kind":"pith_short_12","alias_value":"K6ZCRHHY2BKP","created_at":"2026-05-18T12:32:33Z"},{"alias_kind":"pith_short_16","alias_value":"K6ZCRHHY2BKPC3TX","created_at":"2026-05-18T12:32:33Z"},{"alias_kind":"pith_short_8","alias_value":"K6ZCRHHY","created_at":"2026-05-18T12:32:33Z"}],"graph_snapshots":[{"event_id":"sha256:215436a5cbbc2eade4f9d32f19e7c86ed60f282ba6ec2b193ab7232d2ca41b58","target":"graph","created_at":"2026-05-18T00:00:02Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Humans learn to play video games significantly faster than the state-of-the-art reinforcement learning (RL) algorithms. People seem to build simple models that are easy to learn to support planning and strategic exploration. Inspired by this, we investigate two issues in leveraging model-based RL for sample efficiency. First we investigate how to perform strategic exploration when exact planning is not feasible and empirically show that optimistic Monte Carlo Tree Search outperforms posterior sampling methods. Second we show how to learn simple deterministic models to support fast learning usi","authors_text":"Emma Brunskill, Jay Whang, Patrick Cho, Ramtin Keramati","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-06-01T02:54:06Z","title":"Fast Exploration with Simplified Models and Approximately Optimistic Planning in Model Based Reinforcement Learning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1806.00175","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:ef4775e994b907ee04585911684e32c5a35f3603e6663f2c88c1e817c4ae8e52","target":"record","created_at":"2026-05-18T00:00:02Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"3a77b415028c12a84f0849ac0887fc81e4c7f2030a5d959f8b17935c29a87612","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2018-06-01T02:54:06Z","title_canon_sha256":"bb486eb1de679bdcf37178df01da33db1fa9cc8b948a4bcd0e63b001fa2f1f83"},"schema_version":"1.0","source":{"id":"1806.00175","kind":"arxiv","version":2}},"canonical_sha256":"57b2289cf8d054f16e77a0b094158afd6681e762bb396dbbeeaecb5e551f5feb","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"57b2289cf8d054f16e77a0b094158afd6681e762bb396dbbeeaecb5e551f5feb","first_computed_at":"2026-05-18T00:00:02.054887Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:00:02.054887Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"nPV/Kf2ltUUINCt8ENUArQQGV5KajXc5NUVODi9zDay++Rlcc+qMTa0KvGiXGk60vll2spZakW0wf7OczzpEDQ==","signature_status":"signed_v1","signed_at":"2026-05-18T00:00:02.055748Z","signed_message":"canonical_sha256_bytes"},"source_id":"1806.00175","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:ef4775e994b907ee04585911684e32c5a35f3603e6663f2c88c1e817c4ae8e52","sha256:215436a5cbbc2eade4f9d32f19e7c86ed60f282ba6ec2b193ab7232d2ca41b58"],"state_sha256":"8cd420ff3bdff981e63c3b126798ae20289379d7642a9c6e043f80146a219619"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"jE7aER848VfLbHMPVwB8MlDxtJvfCfW0rvmPdg52vNyqDfzUXWry4tD3zlT1kAsNSEY1KOYw8oF9cjr2jlWeCw==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-09T16:05:22.443520Z","bundle_sha256":"2c0ed51a178e2201a31770735d3bd7c31a50753dc6fe1d55ce29f932f535b5dc"}}