{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2017:WWNGVH6FYAD7UUQMHFZ22X2RGR","short_pith_number":"pith:WWNGVH6F","canonical_record":{"source":{"id":"1710.10866","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-10-30T11:05:32Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"409e994ca71c7d6b712bf7b4b8bf169c744501f08eecf2814fe257a633570bf1","abstract_canon_sha256":"abb91e2a3c7584b20be917b4df3618752dbbe7503bc4bf4a23843ade47b542b2"},"schema_version":"1.0"},"canonical_sha256":"b59a6a9fc5c007fa520c3973ad5f51344980c967f51adba3a89bf94f36ceb33d","source":{"kind":"arxiv","id":"1710.10866","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1710.10866","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"arxiv_version","alias_value":"1710.10866v1","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1710.10866","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"pith_short_12","alias_value":"WWNGVH6FYAD7","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_16","alias_value":"WWNGVH6FYAD7UUQM","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_8","alias_value":"WWNGVH6F","created_at":"2026-05-18T12:31:53Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2017:WWNGVH6FYAD7UUQMHFZ22X2RGR","target":"record","payload":{"canonical_record":{"source":{"id":"1710.10866","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-10-30T11:05:32Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"409e994ca71c7d6b712bf7b4b8bf169c744501f08eecf2814fe257a633570bf1","abstract_canon_sha256":"abb91e2a3c7584b20be917b4df3618752dbbe7503bc4bf4a23843ade47b542b2"},"schema_version":"1.0"},"canonical_sha256":"b59a6a9fc5c007fa520c3973ad5f51344980c967f51adba3a89bf94f36ceb33d","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:31:46.240043Z","signature_b64":"A20OOsyD+P3XL/f23AETHNMc5x1XqBzFCLZ0yGZMpOMgu9DD8E6vMvtqtKyU1KbT5g9hk621ArZ2fKYRW/g1Cw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b59a6a9fc5c007fa520c3973ad5f51344980c967f51adba3a89bf94f36ceb33d","last_reissued_at":"2026-05-18T00:31:46.239439Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:31:46.239439Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1710.10866","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:31:46Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"0VTd2x7wohu+evhWQ9njyECV/GIu/Sxwuys8uYZ5HgHbddYxvvj8HAyxMp//pR1fIJWXoFTrs3whK2IiyXA0Bw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T11:05:09.186953Z"},"content_sha256":"e1c93fff74b1a3b3874e7d222002c88c77f18dc5bc27f650bfe23e10532c02ef","schema_version":"1.0","event_id":"sha256:e1c93fff74b1a3b3874e7d222002c88c77f18dc5bc27f650bfe23e10532c02ef"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2017:WWNGVH6FYAD7UUQMHFZ22X2RGR","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"stat.ML","authors_text":"Eiji Uchibe, Kenji Doya, Tadashi Kozuno","submitted_at":"2017-10-30T11:05:32Z","abstract_excerpt":"Approximate dynamic programming algorithms, such as approximate value iteration, have been successfully applied to many complex reinforcement learning tasks, and a better approximate dynamic programming algorithm is expected to further extend the applicability of reinforcement learning to various tasks. In this paper we propose a new, robust dynamic programming algorithm that unifies value iteration, advantage learning, and dynamic policy programming. We call it generalized value iteration (GVI) and its approximated version, approximate GVI (AGVI). We show AGVI's performance guarantee, which i"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1710.10866","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:31:46Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"HCE5Vej78vu/pnqg92hk5LuIEhNBr2eT+4973SHb+/JDFjWSX3kZDJ3fXqJ7W6ob0h/L8WzxKLz+eMhgJeOSAA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T11:05:09.187304Z"},"content_sha256":"081e4bd1dc3c383f4add6675a377c239a9a9a6e51f4eabeb1482bac307e38382","schema_version":"1.0","event_id":"sha256:081e4bd1dc3c383f4add6675a377c239a9a9a6e51f4eabeb1482bac307e38382"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/bundle.json","state_url":"https://pith.science/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-03T11:05:09Z","links":{"resolver":"https://pith.science/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR","bundle":"https://pith.science/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/bundle.json","state":"https://pith.science/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/state.json","well_known_bundle":"https://pith.science/.well-known/pith/WWNGVH6FYAD7UUQMHFZ22X2RGR/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2017:WWNGVH6FYAD7UUQMHFZ22X2RGR","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"abb91e2a3c7584b20be917b4df3618752dbbe7503bc4bf4a23843ade47b542b2","cross_cats_sorted":["cs.LG"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-10-30T11:05:32Z","title_canon_sha256":"409e994ca71c7d6b712bf7b4b8bf169c744501f08eecf2814fe257a633570bf1"},"schema_version":"1.0","source":{"id":"1710.10866","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1710.10866","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"arxiv_version","alias_value":"1710.10866v1","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1710.10866","created_at":"2026-05-18T00:31:46Z"},{"alias_kind":"pith_short_12","alias_value":"WWNGVH6FYAD7","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_16","alias_value":"WWNGVH6FYAD7UUQM","created_at":"2026-05-18T12:31:53Z"},{"alias_kind":"pith_short_8","alias_value":"WWNGVH6F","created_at":"2026-05-18T12:31:53Z"}],"graph_snapshots":[{"event_id":"sha256:081e4bd1dc3c383f4add6675a377c239a9a9a6e51f4eabeb1482bac307e38382","target":"graph","created_at":"2026-05-18T00:31:46Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Approximate dynamic programming algorithms, such as approximate value iteration, have been successfully applied to many complex reinforcement learning tasks, and a better approximate dynamic programming algorithm is expected to further extend the applicability of reinforcement learning to various tasks. In this paper we propose a new, robust dynamic programming algorithm that unifies value iteration, advantage learning, and dynamic policy programming. We call it generalized value iteration (GVI) and its approximated version, approximate GVI (AGVI). We show AGVI's performance guarantee, which i","authors_text":"Eiji Uchibe, Kenji Doya, Tadashi Kozuno","cross_cats":["cs.LG"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-10-30T11:05:32Z","title":"Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1710.10866","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:e1c93fff74b1a3b3874e7d222002c88c77f18dc5bc27f650bfe23e10532c02ef","target":"record","created_at":"2026-05-18T00:31:46Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"abb91e2a3c7584b20be917b4df3618752dbbe7503bc4bf4a23843ade47b542b2","cross_cats_sorted":["cs.LG"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-10-30T11:05:32Z","title_canon_sha256":"409e994ca71c7d6b712bf7b4b8bf169c744501f08eecf2814fe257a633570bf1"},"schema_version":"1.0","source":{"id":"1710.10866","kind":"arxiv","version":1}},"canonical_sha256":"b59a6a9fc5c007fa520c3973ad5f51344980c967f51adba3a89bf94f36ceb33d","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"b59a6a9fc5c007fa520c3973ad5f51344980c967f51adba3a89bf94f36ceb33d","first_computed_at":"2026-05-18T00:31:46.239439Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:31:46.239439Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"A20OOsyD+P3XL/f23AETHNMc5x1XqBzFCLZ0yGZMpOMgu9DD8E6vMvtqtKyU1KbT5g9hk621ArZ2fKYRW/g1Cw==","signature_status":"signed_v1","signed_at":"2026-05-18T00:31:46.240043Z","signed_message":"canonical_sha256_bytes"},"source_id":"1710.10866","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:e1c93fff74b1a3b3874e7d222002c88c77f18dc5bc27f650bfe23e10532c02ef","sha256:081e4bd1dc3c383f4add6675a377c239a9a9a6e51f4eabeb1482bac307e38382"],"state_sha256":"89100b71a4c1bd3da66f3f01ecd29ccd2e5cdc5ec39417a38d35038020cccfaf"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"seMG2oal/eVXmHAJbx/5Z9gI5ROzLI03sl9xqAkW1HLHfzhcIztFxdWJFpvUdaHNBrOp/lMV7uYhV+eub/lADA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-03T11:05:09.189328Z","bundle_sha256":"bb975dcabc9acbf7866275f47817dbee655f8fbdd562f4a1601602aa52825333"}}