{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:GNOCPX6BGSRCEMIOGR4MNSS2RQ","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"007badd1aec1adbe14c5e4652294374b3e5e37de24771f7a013f3834f4a4f670","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-02-08T05:47:27Z","title_canon_sha256":"509a323776fed6f653fed2861c8f25c96cb7c38854b1ab726bc74d56f2a41cca"},"schema_version":"1.0","source":{"id":"2602.07832","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2602.07832","created_at":"2026-05-21T01:04:22Z"},{"alias_kind":"arxiv_version","alias_value":"2602.07832v2","created_at":"2026-05-21T01:04:22Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2602.07832","created_at":"2026-05-21T01:04:22Z"},{"alias_kind":"pith_short_12","alias_value":"GNOCPX6BGSRC","created_at":"2026-05-21T01:04:22Z"},{"alias_kind":"pith_short_16","alias_value":"GNOCPX6BGSRCEMIO","created_at":"2026-05-21T01:04:22Z"},{"alias_kind":"pith_short_8","alias_value":"GNOCPX6B","created_at":"2026-05-21T01:04:22Z"}],"graph_snapshots":[{"event_id":"sha256:216054945704498e4cbe4bbc62c452e8d1fdc80ce80e0b4dbd9510f2a4fdcfcd","target":"graph","created_at":"2026-05-21T01:04:22Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2602.07832/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Process rewards have been widely used in deep reinforcement learning to improve training efficiency, reduce variance, and prevent reward hacking. In LLM reasoning, existing works also explore various solutions for learning effective process reward models (PRM) with or without the help of an expert policy. However, existing methods either rely on strong assumptions about the expert policies (e.g., requiring their reward functions) or suffer intrinsic limitations (e.g., entropy collapse), resulting in weak PRMs or limited generalizability. In this paper, we introduce rePIRL, an inverse RL-inspir","authors_text":"Kaijie Zhu, Lun Wang, Wenbo Guo, Xian Wu, Ying Zhang","cross_cats":["cs.AI"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-02-08T05:47:27Z","title":"rePIRL: Learn PRM with Inverse RL for LLM Reasoning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2602.07832","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:d7164c9be2f67fee118f1b6386b9670c71f8931b8a6d70d2beb6daaeb6b6ea6e","target":"record","created_at":"2026-05-21T01:04:22Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"007badd1aec1adbe14c5e4652294374b3e5e37de24771f7a013f3834f4a4f670","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-02-08T05:47:27Z","title_canon_sha256":"509a323776fed6f653fed2861c8f25c96cb7c38854b1ab726bc74d56f2a41cca"},"schema_version":"1.0","source":{"id":"2602.07832","kind":"arxiv","version":2}},"canonical_sha256":"335c27dfc134a222310e3478c6ca5a8c1557472d21508f64ab701306964383b1","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"335c27dfc134a222310e3478c6ca5a8c1557472d21508f64ab701306964383b1","first_computed_at":"2026-05-21T01:04:22.550047Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-21T01:04:22.550047Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"jgqxdW8McupCaRResQxSR0/5fmxc1hcFvGbT1JHc4S9X/M+lo1x3bru2aU7PI1rdSZTPTmkQ9ruVahmO1+VRBQ==","signature_status":"signed_v1","signed_at":"2026-05-21T01:04:22.550953Z","signed_message":"canonical_sha256_bytes"},"source_id":"2602.07832","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:d7164c9be2f67fee118f1b6386b9670c71f8931b8a6d70d2beb6daaeb6b6ea6e","sha256:216054945704498e4cbe4bbc62c452e8d1fdc80ce80e0b4dbd9510f2a4fdcfcd"],"state_sha256":"7b411acd8614da2cbb4b561018ee7741df6d6a5d556bc9af264e2d5a4026159a"}