{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2018:FSYC37WIT5QJSDN4LTF24JKVJ7","short_pith_number":"pith:FSYC37WI","schema_version":"1.0","canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","source":{"kind":"arxiv","id":"1806.05134","version":3},"attestation_state":"computed","paper":{"title":"Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Carson Eisenach, Haichuan Yang, Han Liu, Ji Liu","submitted_at":"2018-06-13T16:32:27Z","abstract_excerpt":"Many complex domains, such as robotics control and real-time strategy (RTS) games, require an agent to learn a continuous control. In the former, an agent learns a policy over $\\mathbb{R}^d$ and in the latter, over a discrete set of actions each of which is parametrized by a continuous parameter. Such problems are naturally solved using policy based reinforcement learning (RL) methods, but unfortunately these often suffer from high variance leading to instability and slow convergence. Unnecessary variance is introduced whenever policies over bounded action spaces are modeled using distribution"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1806.05134","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-06-13T16:32:27Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"4b00fa79310ad195d54277596c0ed62da788bcbbebe19e3ce96a54429a8f7ea0","abstract_canon_sha256":"1d4789c962633ba4a06e0c48a767417194d3352f66abd38da401d998aef192ab"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:53:51.233877Z","signature_b64":"lCUDkhPX4FBlz2S7uPa9/igXp5hZqSQYG6EdzTpkRPUYU+09QcySZfG3UOM0zpv3KVgo5D4PdtMhdwL0OAoxAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2cb02dfec89f60990dbc5ccbae25554ff088e94a01a2380e9f05c5b56e7255f7","last_reissued_at":"2026-05-17T23:53:51.233233Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:53:51.233233Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Carson Eisenach, Haichuan Yang, Han Liu, Ji Liu","submitted_at":"2018-06-13T16:32:27Z","abstract_excerpt":"Many complex domains, such as robotics control and real-time strategy (RTS) games, require an agent to learn a continuous control. In the former, an agent learns a policy over $\\mathbb{R}^d$ and in the latter, over a discrete set of actions each of which is parametrized by a continuous parameter. Such problems are naturally solved using policy based reinforcement learning (RL) methods, but unfortunately these often suffer from high variance leading to instability and slow convergence. Unnecessary variance is introduced whenever policies over bounded action spaces are modeled using distribution"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1806.05134","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1806.05134","created_at":"2026-05-17T23:53:51.233356+00:00"},{"alias_kind":"arxiv_version","alias_value":"1806.05134v3","created_at":"2026-05-17T23:53:51.233356+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1806.05134","created_at":"2026-05-17T23:53:51.233356+00:00"},{"alias_kind":"pith_short_12","alias_value":"FSYC37WIT5QJ","created_at":"2026-05-18T12:32:25.280505+00:00"},{"alias_kind":"pith_short_16","alias_value":"FSYC37WIT5QJSDN4","created_at":"2026-05-18T12:32:25.280505+00:00"},{"alias_kind":"pith_short_8","alias_value":"FSYC37WI","created_at":"2026-05-18T12:32:25.280505+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7","json":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7.json","graph_json":"https://pith.science/api/pith-number/FSYC37WIT5QJSDN4LTF24JKVJ7/graph.json","events_json":"https://pith.science/api/pith-number/FSYC37WIT5QJSDN4LTF24JKVJ7/events.json","paper":"https://pith.science/paper/FSYC37WI"},"agent_actions":{"view_html":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7","download_json":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7.json","view_paper":"https://pith.science/paper/FSYC37WI","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1806.05134&json=true","fetch_graph":"https://pith.science/api/pith-number/FSYC37WIT5QJSDN4LTF24JKVJ7/graph.json","fetch_events":"https://pith.science/api/pith-number/FSYC37WIT5QJSDN4LTF24JKVJ7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/action/storage_attestation","attest_author":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/action/author_attestation","sign_citation":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/action/citation_signature","submit_replication":"https://pith.science/pith/FSYC37WIT5QJSDN4LTF24JKVJ7/action/replication_record"}},"created_at":"2026-05-17T23:53:51.233356+00:00","updated_at":"2026-05-17T23:53:51.233356+00:00"}