{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2017:WB52ERUWHWX6ZJUKSCTSTKRZIS","short_pith_number":"pith:WB52ERUW","canonical_record":{"source":{"id":"1712.04170","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-12-12T08:31:51Z","cross_cats_sorted":["cs.NE","cs.SY"],"title_canon_sha256":"166c11da57a44a1b3e689dc2ed283d7455679ec696da688e419b6525f86eb5d5","abstract_canon_sha256":"2023108b570ade86c986f462cbc91f54205ea04723b238c8729aab4efa60a585"},"schema_version":"1.0"},"canonical_sha256":"b07ba246963dafeca68a90a729aa39449cca4dea3d7a341e36dadb0ad3934445","source":{"kind":"arxiv","id":"1712.04170","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1712.04170","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"arxiv_version","alias_value":"1712.04170v2","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1712.04170","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"pith_short_12","alias_value":"WB52ERUWHWX6","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_16","alias_value":"WB52ERUWHWX6ZJUK","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_8","alias_value":"WB52ERUW","created_at":"2026-05-18T12:31:53Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2017:WB52ERUWHWX6ZJUKSCTSTKRZIS","target":"record","payload":{"canonical_record":{"source":{"id":"1712.04170","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-12-12T08:31:51Z","cross_cats_sorted":["cs.NE","cs.SY"],"title_canon_sha256":"166c11da57a44a1b3e689dc2ed283d7455679ec696da688e419b6525f86eb5d5","abstract_canon_sha256":"2023108b570ade86c986f462cbc91f54205ea04723b238c8729aab4efa60a585"},"schema_version":"1.0"},"canonical_sha256":"b07ba246963dafeca68a90a729aa39449cca4dea3d7a341e36dadb0ad3934445","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:19:16.711410Z","signature_b64":"AMJzeE8KmTS22NQd2HPNyA+hOTy9QXKwa5+eP291w+M9pgYZXsHv46d31BDHrmaMMDK5QEsWc7chyqAxAlofAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b07ba246963dafeca68a90a729aa39449cca4dea3d7a341e36dadb0ad3934445","last_reissued_at":"2026-05-18T00:19:16.710686Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:19:16.710686Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1712.04170","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:19:16Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"sCpusjFo3yGa56TCguiLgllyzSVIJIiNTTjX2RCyG5naLSMOmtaeUXxzPJqRM6HJ0kgzfwaucV158uWsCntkBA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T18:34:38.403792Z"},"content_sha256":"b5696d7f7a8fe458df1ad2516e15d7151fae666521e79170014f97cd474e8b77","schema_version":"1.0","event_id":"sha256:b5696d7f7a8fe458df1ad2516e15d7151fae666521e79170014f97cd474e8b77"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2017:WB52ERUWHWX6ZJUKSCTSTKRZIS","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Interpretable Policies for Reinforcement Learning by Genetic Programming","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.NE","cs.SY"],"primary_cat":"cs.AI","authors_text":"Daniel Hein, Steffen Udluft, Thomas A. Runkler","submitted_at":"2017-12-12T08:31:51Z","abstract_excerpt":"The search for interpretable reinforcement learning policies is of high academic and industrial interest. Especially for industrial systems, domain experts are more likely to deploy autonomously learned controllers if they are understandable and convenient to evaluate. Basic algebraic equations are supposed to meet these requirements, as long as they are restricted to an adequate complexity. Here we introduce the genetic programming for reinforcement learning (GPRL) approach based on model-based batch reinforcement learning and genetic programming, which autonomously learns policy equations fr"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1712.04170","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:19:16Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"e0rfDOF8eMETwlrhg4J28eDI6r82DRAJOCfQGrBvmdxOvicSWWjwwXkYuMH8QT4A/en38tF93DDcekp7M03jDg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T18:34:38.404177Z"},"content_sha256":"9b0f2ead04b5f5aef8aa49731232d238445dc091217f36b7998fe61654af895c","schema_version":"1.0","event_id":"sha256:9b0f2ead04b5f5aef8aa49731232d238445dc091217f36b7998fe61654af895c"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/bundle.json","state_url":"https://pith.science/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-04T18:34:38Z","links":{"resolver":"https://pith.science/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS","bundle":"https://pith.science/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/bundle.json","state":"https://pith.science/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/state.json","well_known_bundle":"https://pith.science/.well-known/pith/WB52ERUWHWX6ZJUKSCTSTKRZIS/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2017:WB52ERUWHWX6ZJUKSCTSTKRZIS","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"2023108b570ade86c986f462cbc91f54205ea04723b238c8729aab4efa60a585","cross_cats_sorted":["cs.NE","cs.SY"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-12-12T08:31:51Z","title_canon_sha256":"166c11da57a44a1b3e689dc2ed283d7455679ec696da688e419b6525f86eb5d5"},"schema_version":"1.0","source":{"id":"1712.04170","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1712.04170","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"arxiv_version","alias_value":"1712.04170v2","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1712.04170","created_at":"2026-05-18T00:19:16Z"},{"alias_kind":"pith_short_12","alias_value":"WB52ERUWHWX6","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_16","alias_value":"WB52ERUWHWX6ZJUK","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_8","alias_value":"WB52ERUW","created_at":"2026-05-18T12:31:53Z"}],"graph_snapshots":[{"event_id":"sha256:9b0f2ead04b5f5aef8aa49731232d238445dc091217f36b7998fe61654af895c","target":"graph","created_at":"2026-05-18T00:19:16Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"The search for interpretable reinforcement learning policies is of high academic and industrial interest. Especially for industrial systems, domain experts are more likely to deploy autonomously learned controllers if they are understandable and convenient to evaluate. Basic algebraic equations are supposed to meet these requirements, as long as they are restricted to an adequate complexity. Here we introduce the genetic programming for reinforcement learning (GPRL) approach based on model-based batch reinforcement learning and genetic programming, which autonomously learns policy equations fr","authors_text":"Daniel Hein, Steffen Udluft, Thomas A. Runkler","cross_cats":["cs.NE","cs.SY"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-12-12T08:31:51Z","title":"Interpretable Policies for Reinforcement Learning by Genetic Programming"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1712.04170","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:b5696d7f7a8fe458df1ad2516e15d7151fae666521e79170014f97cd474e8b77","target":"record","created_at":"2026-05-18T00:19:16Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"2023108b570ade86c986f462cbc91f54205ea04723b238c8729aab4efa60a585","cross_cats_sorted":["cs.NE","cs.SY"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-12-12T08:31:51Z","title_canon_sha256":"166c11da57a44a1b3e689dc2ed283d7455679ec696da688e419b6525f86eb5d5"},"schema_version":"1.0","source":{"id":"1712.04170","kind":"arxiv","version":2}},"canonical_sha256":"b07ba246963dafeca68a90a729aa39449cca4dea3d7a341e36dadb0ad3934445","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"b07ba246963dafeca68a90a729aa39449cca4dea3d7a341e36dadb0ad3934445","first_computed_at":"2026-05-18T00:19:16.710686Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:19:16.710686Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"AMJzeE8KmTS22NQd2HPNyA+hOTy9QXKwa5+eP291w+M9pgYZXsHv46d31BDHrmaMMDK5QEsWc7chyqAxAlofAA==","signature_status":"signed_v1","signed_at":"2026-05-18T00:19:16.711410Z","signed_message":"canonical_sha256_bytes"},"source_id":"1712.04170","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:b5696d7f7a8fe458df1ad2516e15d7151fae666521e79170014f97cd474e8b77","sha256:9b0f2ead04b5f5aef8aa49731232d238445dc091217f36b7998fe61654af895c"],"state_sha256":"c339eb3857694cef06a7dea3bb855d502ea71fd32acf8245684a80c0a864b154"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"kzlM9Z4ztWYzDbH+fABgPapdv7L1hTKIgWelLaYWlJ7tsewEEjXaoFZsmekjJHHkWfMTIdsxS7HhEAU0ODLnCQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-04T18:34:38.407696Z","bundle_sha256":"9d11b19289829508d7b3c9d231fdf7ec9d6fc96a96f8588069defa6331b86de8"}}