{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:FSYC37WIT5QJSDN4LTF24JKVJ7","short_pith_number":"pith:FSYC37WI","canonical_record":{"source":{"id":"1806.05134","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"4b00fa79310ad195d54277596c0ed62da788bcbbebe19e3ce96a54429a8f7ea0","abstract_canon_sha256":"1d4789c962633ba4a06e0c48a767417194d3352f66abd38da401d998aef192ab"},"schema_version":"1.0"},"canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","source":{"kind":"arxiv","id":"1806.05134","version":3},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1806.05134","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"arxiv_version","alias_value":"1806.05134v3","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1806.05134","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"pith_short_12","alias_value":"FSYC37WIT5QJ","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_16","alias_value":"FSYC37WIT5QJSDN4","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_8","alias_value":"FSYC37WI","created_at":"2026-05-18T12:32:25Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:FSYC37WIT5QJSDN4LTF24JKVJ7","target":"record","payload":{"canonical_record":{"source":{"id":"1806.05134","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"4b00fa79310ad195d54277596c0ed62da788bcbbebe19e3ce96a54429a8f7ea0","abstract_canon_sha256":"1d4789c962633ba4a06e0c48a767417194d3352f66abd38da401d998aef192ab"},"schema_version":"1.0"},"canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:53:51.233877Z","signature_b64":"lCUDkhPX4FBlz2S7uPa9/igXp5hZqSQYG6EdzTpkRPUYU+09QcySZfG3UOM0zpv3KVgo5D4PdtMhdwL0OAoxAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","last_reissued_at":"2026-05-17T23:53:51.233233Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:53:51.233233Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1806.05134","source_version":3,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:53:51Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"tOhf/AfIv1Bo1R8ePlKzwRk1P5CMzvZY2XjbZKJnKGcdgu4zwsyEWUnD8+zn2ZLYxG6/woOgN+HGKqBc3JS0BA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T10:36:14.877420Z"},"content_sha256":"5d75e9d57376caf893123e1d4cfc6a1b941b3b3e8a47da7383e70c7e508b94ca","schema_version":"1.0","event_id":"sha256:5d75e9d57376caf893123e1d4cfc6a1b941b3b3e8a47da7383e70c7e508b94ca"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:FSYC37WIT5QJSDN4LTF24JKVJ7","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Carson Eisenach, Haichuan Yang, Han Liu, Ji Liu","submitted_at":"2018-06-13T16:32:27Z","abstract_excerpt":"Many complex domains, such as robotics control and real-time strategy (RTS) games, require an agent to learn a continuous control. In the former, an agent learns a policy over $\\mathbb{R}^d$ and in the latter, over a discrete set of actions each of which is parametrized by a continuous parameter. Such problems are naturally solved using policy based reinforcement learning (RL) methods, but unfortunately these often suffer from high variance leading to instability and slow convergence. Unnecessary variance is introduced whenever policies over bounded action spaces are modeled using distribution"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1806.05134","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:53:51Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"Z9M1YguM3MLr0BJEYyB16bS/tcvmCF1yFV/1HKwi4G6lgf9oGciL/fGFB5Rl0vjPIfvPQS130+8lviFcuIheAQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T10:36:14.877767Z"},"content_sha256":"51699a8730727a82bffde4ac0a0a5d54556b4a87ec99dbf0555c9a48ea49d95d","schema_version":"1.0","event_id":"sha256:51699a8730727a82bffde4ac0a0a5d54556b4a87ec99dbf0555c9a48ea49d95d"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/bundle.json","state_url":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-03T10:36:14Z","links":{"resolver":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7","bundle":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/bundle.json","state":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/state.json","well_known_bundle":"https://pith.science/.well-known/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:FSYC37WIT5QJSDN4LTF24JKVJ7","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"1d4789c962633ba4a06e0c48a767417194d3352f66abd38da401d998aef192ab","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","title_canon_sha256":"4b00fa79310ad195d54277596c0ed62da788bcbbebe19e3ce96a54429a8f7ea0"},"schema_version":"1.0","source":{"id":"1806.05134","kind":"arxiv","version":3}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1806.05134","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"arxiv_version","alias_value":"1806.05134v3","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1806.05134","created_at":"2026-05-17T23:53:51Z"},{"alias_kind":"pith_short_12","alias_value":"FSYC37WIT5QJ","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_16","alias_value":"FSYC37WIT5QJSDN4","created_at":"2026-05-18T12:32:25Z"},{"alias_kind":"pith_short_8","alias_value":"FSYC37WI","created_at":"2026-05-18T12:32:25Z"}],"graph_snapshots":[{"event_id":"sha256:51699a8730727a82bffde4ac0a0a5d54556b4a87ec99dbf0555c9a48ea49d95d","target":"graph","created_at":"2026-05-17T23:53:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Many complex domains, such as robotics control and real-time strategy (RTS) games, require an agent to learn a continuous control. In the former, an agent learns a policy over $\\mathbb{R}^d$ and in the latter, over a discrete set of actions each of which is parametrized by a continuous parameter. Such problems are naturally solved using policy based reinforcement learning (RL) methods, but unfortunately these often suffer from high variance leading to instability and slow convergence. Unnecessary variance is introduced whenever policies over bounded action spaces are modeled using distribution","authors_text":"Carson Eisenach, Haichuan Yang, Han Liu, Ji Liu","cross_cats":["stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","title":"Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1806.05134","kind":"arxiv","version":3},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:5d75e9d57376caf893123e1d4cfc6a1b941b3b3e8a47da7383e70c7e508b94ca","target":"record","created_at":"2026-05-17T23:53:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"1d4789c962633ba4a06e0c48a767417194d3352f66abd38da401d998aef192ab","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","title_canon_sha256":"4b00fa79310ad195d54277596c0ed62da788bcbbebe19e3ce96a54429a8f7ea0"},"schema_version":"1.0","source":{"id":"1806.05134","kind":"arxiv","version":3}},"canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","first_computed_at":"2026-05-17T23:53:51.233233Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:53:51.233233Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"lCUDkhPX4FBlz2S7uPa9/igXp5hZqSQYG6EdzTpkRPUYU+09QcySZfG3UOM0zpv3KVgo5D4PdtMhdwL0OAoxAA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:53:51.233877Z","signed_message":"canonical_sha256_bytes"},"source_id":"1806.05134","source_kind":"arxiv","source_version":3}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:5d75e9d57376caf893123e1d4cfc6a1b941b3b3e8a47da7383e70c7e508b94ca","sha256:51699a8730727a82bffde4ac0a0a5d54556b4a87ec99dbf0555c9a48ea49d95d"],"state_sha256":"469dce0826a169cdcb45b2b736b1dcfbd101e6df21e469ab46c66c5ae499406d"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"4K9aPnPzsJTUzeN0n0eGXIHTRjWMc0CzM8e4b3O4hroeyYIYGPDuQ2hC/C+jR1rbrpEbNtgBXHvO+9GCLo/fCw==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-03T10:36:14.883303Z","bundle_sha256":"e0b019ebc6eee495e646cffd67085950ae3c4a3599b2950b21eab8f2d46577c3"}}