{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:F6OZ7UILPGHPC6HGBEMQP4MSQR","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"c820fbc7ba95f475bed269d17cafa20ca108aebaba1cf2172a4f9f77307f28aa","cross_cats_sorted":["cs.HC"],"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-05T19:40:05Z","title_canon_sha256":"90b3f301a6e07a8ad0a702478aa2b34dd15ddaecbcc30e97482a58d252860d2e"},"schema_version":"1.0","source":{"id":"2605.04254","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.04254","created_at":"2026-05-20T00:00:40Z"},{"alias_kind":"arxiv_version","alias_value":"2605.04254v2","created_at":"2026-05-20T00:00:40Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.04254","created_at":"2026-05-20T00:00:40Z"},{"alias_kind":"pith_short_12","alias_value":"F6OZ7UILPGHP","created_at":"2026-05-20T00:00:40Z"},{"alias_kind":"pith_short_16","alias_value":"F6OZ7UILPGHPC6HG","created_at":"2026-05-20T00:00:40Z"},{"alias_kind":"pith_short_8","alias_value":"F6OZ7UIL","created_at":"2026-05-20T00:00:40Z"}],"graph_snapshots":[{"event_id":"sha256:fb40c714b19d80a47548275bf95c0e5fbd524d01eff37bc43e3fb6562fa6484f","target":"graph","created_at":"2026-05-20T00:00:40Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Our method improves mean return by +7.4% over previous critic driven state partitioning attempts such as Voronoi State Partitioning (VSP) and +2.8% over the original TD3 policy, while reducing the number of required subpolicies against VSP by 82.1%."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That linear SVM splits on a distillation dataset of state-action pairs will reliably produce a compact hierarchical set of human-interpretable subpolicies that accurately mimic the original black-box policy behavior."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"SVSP partitions distillation datasets with linear SVMs to create compact interpretable subpolicies, reporting +7.4% better mean return than VSP and +2.8% over TD3 while using 82.1% fewer subpolicies."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Linear support vector machine splits distill black-box reinforcement learning policies into fewer interpretable subpolicies with higher returns."}],"snapshot_sha256":"70524e805331e949039010867d6f5c1df893ae0e5e454b60f61b66ebae80dded"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"doi_title_agreement","ran_at":"2026-05-19T23:31:20.927215Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_compliance","ran_at":"2026-05-19T14:40:39.029023Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2605.04254/integrity.json","findings":[],"snapshot_sha256":"2e2e6e65576b471ba085e1a27885c9a510439f9f4665ed6b65a73c11ef9d28aa","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"We introduce State Vector Space Partitioning (SVSP), a novel method to mimic a black box reinforcement learning policy using a set of human-interpretable subpolicies. By partitioning a distillation dataset of state action pairs with linear support vector machine splits, SVSP constructs a compact and structured representation of the original policy. Our method improves mean return by +7.4% over previous critic driven state partitioning attempts such as Voronoi State Partitioning (VSP) and +2.8% over the original TD3 policy, while reducing the number of required subpolicies against VSP by 82.1%.","authors_text":"Ann Now\\'e, Mehrdad Asadi, Senne Deproost","cross_cats":["cs.HC"],"headline":"Linear support vector machine splits distill black-box reinforcement learning policies into fewer interpretable subpolicies with higher returns.","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-05T19:40:05Z","title":"Hierarchical Support Vector State Partitioning for Distilling Black Box Reinforcement Learning Policies"},"references":{"count":8,"internal_anchors":0,"resolved_work":8,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Ribeiro, M., Singh, S. & Guestrin, C. ” Why should i trust you?” Explaining the predictions of any classifier.Proceedings Of The 22nd ACM SIGKDD International Conference On Knowledge Discovery And Dat","work_id":"2f79d143-ed08-47ef-837c-658925c65f38","year":2016},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"Deproost, S., Steckelmacher, D. & Now ´e, A. Explainable RL Policies by Distilling to Locally- Specialized Linear Policies with V oronoi State Partitioning.ArXiv Preprint ArXiv:2511.13322. (2025)","work_id":"3abb18b5-9486-4b0e-872a-d3e6d5e3aff5","year":2025},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Kohler, H., Delfosse, Q., Akrour, R., Kersting, K. & Preux, P. Interpretable and Editable Programmatic Tree Policies for Reinforcement Learning. (2024,10,28)","work_id":"32539da4-9262-42d2-8026-c48785d2dc4f","year":2024},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Coppens, Y ., Efthymiadis, K., Lenaerts, T., Now ´e, A., Miller, T., Weber, R. & Magazzeni, D. Distilling deep reinforcement learning policies in soft decision trees.Proceedings Of The IJCAI 2019 Work","work_id":"30e9efa7-b445-41d6-9733-ed28e7b60373","year":2019},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":5,"title":"Blanco, V ., Jap ´on, A. & Puerto, J. Multiclass optimal classification trees with svm-splits.Machine Learning.112, 4905-4928 (2023)","work_id":"181576ba-35aa-443c-9821-01e10132aad0","year":2023}],"snapshot_sha256":"8cc31c485a3a1014f5a4decd887449b386bb05bfe8deee7f6cc127234da57e74"},"source":{"id":"2605.04254","kind":"arxiv","version":2},"verdict":{"created_at":"2026-05-19T16:35:48.801042Z","id":"77b359a9-51b5-40f3-bf61-4e7d9a6f4ca4","model_set":{"reader":"grok-4.3"},"one_line_summary":"SVSP partitions distillation datasets with linear SVMs to create compact interpretable subpolicies, reporting +7.4% better mean return than VSP and +2.8% over TD3 while using 82.1% fewer subpolicies.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Linear support vector machine splits distill black-box reinforcement learning policies into fewer interpretable subpolicies with higher returns.","strongest_claim":"Our method improves mean return by +7.4% over previous critic driven state partitioning attempts such as Voronoi State Partitioning (VSP) and +2.8% over the original TD3 policy, while reducing the number of required subpolicies against VSP by 82.1%.","weakest_assumption":"That linear SVM splits on a distillation dataset of state-action pairs will reliably produce a compact hierarchical set of human-interpretable subpolicies that accurately mimic the original black-box policy behavior."}},"verdict_id":"77b359a9-51b5-40f3-bf61-4e7d9a6f4ca4"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:86c4e4cc9a2204b6a7fc2439a7f197afd63b59fed110789019d1c4a2eb0c9367","target":"record","created_at":"2026-05-20T00:00:40Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"c820fbc7ba95f475bed269d17cafa20ca108aebaba1cf2172a4f9f77307f28aa","cross_cats_sorted":["cs.HC"],"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-05T19:40:05Z","title_canon_sha256":"90b3f301a6e07a8ad0a702478aa2b34dd15ddaecbcc30e97482a58d252860d2e"},"schema_version":"1.0","source":{"id":"2605.04254","kind":"arxiv","version":2}},"canonical_sha256":"2f9d9fd10b798ef178e6091907f1928445fecad6b184143ea267bb824fe26847","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2f9d9fd10b798ef178e6091907f1928445fecad6b184143ea267bb824fe26847","first_computed_at":"2026-05-20T00:00:40.656177Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T00:00:40.656177Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"QP2AjBgDwyZ8vZb/aykYWGXqnQTsSMuiWGzngO5AiSocei1pTDteQfdrm0fVBpPtUc8bHCK0FetGHSyF3TlKBA==","signature_status":"signed_v1","signed_at":"2026-05-20T00:00:40.656835Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.04254","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:86c4e4cc9a2204b6a7fc2439a7f197afd63b59fed110789019d1c4a2eb0c9367","sha256:fb40c714b19d80a47548275bf95c0e5fbd524d01eff37bc43e3fb6562fa6484f"],"state_sha256":"8b617e546fe8d49e679ac9e541e5e60b5f81f0540b20e86f6d661e009f4c1699"}