{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:UOFCKMC7LBLNAKNL6F7L4CEB2R","short_pith_number":"pith:UOFCKMC7","canonical_record":{"source":{"id":"2601.03525","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-07T02:29:49Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"49d8cc26d0ab6ec0aa974436769984eb54830a14bb0bda8863c54159e8fa9e2b","abstract_canon_sha256":"342be6d3808c10b101f0d8ed197e4a6a867c7fd5d3b8cd2486f11b28087d720e"},"schema_version":"1.0"},"canonical_sha256":"a38a25305f5856d029abf17ebe0881d466244eefaf8bf5766076ea1b14da8349","source":{"kind":"arxiv","id":"2601.03525","version":3},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2601.03525","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"arxiv_version","alias_value":"2601.03525v3","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2601.03525","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_12","alias_value":"UOFCKMC7LBLN","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_16","alias_value":"UOFCKMC7LBLNAKNL","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_8","alias_value":"UOFCKMC7","created_at":"2026-05-27T02:05:10Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:UOFCKMC7LBLNAKNL6F7L4CEB2R","target":"record","payload":{"canonical_record":{"source":{"id":"2601.03525","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-07T02:29:49Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"49d8cc26d0ab6ec0aa974436769984eb54830a14bb0bda8863c54159e8fa9e2b","abstract_canon_sha256":"342be6d3808c10b101f0d8ed197e4a6a867c7fd5d3b8cd2486f11b28087d720e"},"schema_version":"1.0"},"canonical_sha256":"a38a25305f5856d029abf17ebe0881d466244eefaf8bf5766076ea1b14da8349","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-27T02:05:10.282848Z","signature_b64":"8LZTxdObrV8iqlfmycZ0AmSuVq6qTuDJ1sq/5LtoAEnrcVNy3nzKG/n7L4oBS4pl70MPiL3rHd26iKgrFyBECw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a38a25305f5856d029abf17ebe0881d466244eefaf8bf5766076ea1b14da8349","last_reissued_at":"2026-05-27T02:05:10.282092Z","signature_status":"signed_v1","first_computed_at":"2026-05-27T02:05:10.282092Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2601.03525","source_version":3,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-27T02:05:10Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"E+tc0LIlilCFV64TlQzdZaI5NfYDyRIjeQR23W+rgR5Ihxyke11javdXhNsBuLngSQXmNvBtHov7Eznjwp5JBg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-24T08:09:09.772157Z"},"content_sha256":"2b6ae34dc29a1d9ec7dafe8930752d8e32b0ae6dd16e0107f0238628d6f5628d","schema_version":"1.0","event_id":"sha256:2b6ae34dc29a1d9ec7dafe8930752d8e32b0ae6dd16e0107f0238628d6f5628d"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:UOFCKMC7LBLNAKNL6F7L4CEB2R","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Beyond Binary: Turning Partial Success into Dense Verifiable Rewards for Reinforcement Learning in Code Generation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Kaidong Yu, Longwen Wang, Qizhen Weng, Wei Xi, Xiaohui Hu, Xuan'er Wu, Xuelong Li, Yirui Liu, Yuankai Fan","submitted_at":"2026-01-07T02:29:49Z","abstract_excerpt":"Effective reward design is a central challenge in Reinforcement Learning (RL) for code generation. Mainstream test-suite-level outcome rewards enforce functional correctness but induce sparsity, while external Reward Models (RMs) provide dense supervision at the cost of misalignment and additional overhead. Since code evaluation naturally yields multiple test-case-level outcomes, partial success, i.e., passing a subset of test cases, offers an intrinsic, verifiable source of dense supervision. In this paper, we propose VeRPO (Verifiable Dense Reward Policy Optimization), an RL framework that s"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2601.03525","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2601.03525/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-27T02:05:10Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"P5XWs62N5PCwxj4bpNncqbJG/s9upqFlKzFRc52FzUQSbnoWopC3dzJ4NvJ1hCoxPprTyvwwf2T5Wj3yz6Y/CA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-24T08:09:09.772682Z"},"content_sha256":"77bd96e3926bdfe1bc4762d00b252cab355d388bdb6ac5787f68cf7a2a04c384","schema_version":"1.0","event_id":"sha256:77bd96e3926bdfe1bc4762d00b252cab355d388bdb6ac5787f68cf7a2a04c384"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/bundle.json","state_url":"https://pith.science/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-24T08:09:09Z","links":{"resolver":"https://pith.science/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R","bundle":"https://pith.science/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/bundle.json","state":"https://pith.science/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/state.json","well_known_bundle":"https://pith.science/.well-known/pith/UOFCKMC7LBLNAKNL6F7L4CEB2R/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:UOFCKMC7LBLNAKNL6F7L4CEB2R","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"342be6d3808c10b101f0d8ed197e4a6a867c7fd5d3b8cd2486f11b28087d720e","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-07T02:29:49Z","title_canon_sha256":"49d8cc26d0ab6ec0aa974436769984eb54830a14bb0bda8863c54159e8fa9e2b"},"schema_version":"1.0","source":{"id":"2601.03525","kind":"arxiv","version":3}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2601.03525","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"arxiv_version","alias_value":"2601.03525v3","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2601.03525","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_12","alias_value":"UOFCKMC7LBLN","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_16","alias_value":"UOFCKMC7LBLNAKNL","created_at":"2026-05-27T02:05:10Z"},{"alias_kind":"pith_short_8","alias_value":"UOFCKMC7","created_at":"2026-05-27T02:05:10Z"}],"graph_snapshots":[{"event_id":"sha256:77bd96e3926bdfe1bc4762d00b252cab355d388bdb6ac5787f68cf7a2a04c384","target":"graph","created_at":"2026-05-27T02:05:10Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2601.03525/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Effective reward design is a central challenge in Reinforcement Learning (RL) for code generation. Mainstream test-suite-level outcome rewards enforce functional correctness but induce sparsity, while external Reward Models (RMs) provide dense supervision at the cost of misalignment and additional overhead. Since code evaluation naturally yields multiple test-case-level outcomes, partial success, i.e., passing a subset of test cases, offers an intrinsic, verifiable source of dense supervision. In this paper, we propose VeRPO (Verifiable Dense Reward Policy Optimization), an RL framework that s","authors_text":"Kaidong Yu, Longwen Wang, Qizhen Weng, Wei Xi, Xiaohui Hu, Xuan'er Wu, Xuelong Li, Yirui Liu, Yuankai Fan","cross_cats":["cs.AI"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-07T02:29:49Z","title":"Beyond Binary: Turning Partial Success into Dense Verifiable Rewards for Reinforcement Learning in Code Generation"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2601.03525","kind":"arxiv","version":3},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:2b6ae34dc29a1d9ec7dafe8930752d8e32b0ae6dd16e0107f0238628d6f5628d","target":"record","created_at":"2026-05-27T02:05:10Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"342be6d3808c10b101f0d8ed197e4a6a867c7fd5d3b8cd2486f11b28087d720e","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-01-07T02:29:49Z","title_canon_sha256":"49d8cc26d0ab6ec0aa974436769984eb54830a14bb0bda8863c54159e8fa9e2b"},"schema_version":"1.0","source":{"id":"2601.03525","kind":"arxiv","version":3}},"canonical_sha256":"a38a25305f5856d029abf17ebe0881d466244eefaf8bf5766076ea1b14da8349","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"a38a25305f5856d029abf17ebe0881d466244eefaf8bf5766076ea1b14da8349","first_computed_at":"2026-05-27T02:05:10.282092Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-27T02:05:10.282092Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"8LZTxdObrV8iqlfmycZ0AmSuVq6qTuDJ1sq/5LtoAEnrcVNy3nzKG/n7L4oBS4pl70MPiL3rHd26iKgrFyBECw==","signature_status":"signed_v1","signed_at":"2026-05-27T02:05:10.282848Z","signed_message":"canonical_sha256_bytes"},"source_id":"2601.03525","source_kind":"arxiv","source_version":3}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:2b6ae34dc29a1d9ec7dafe8930752d8e32b0ae6dd16e0107f0238628d6f5628d","sha256:77bd96e3926bdfe1bc4762d00b252cab355d388bdb6ac5787f68cf7a2a04c384"],"state_sha256":"2a33d6dc47c7849c43c2d64906ad54f826a2dab99044cd82805d9c24c1ae7608"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"l1YICY+GmAHWCZbljGms/Af/xuBCyvs7WBjdQVmKiLq36H9Un4cIdHdXM/qZWcKK+1kfbr7nzTx1Pql6gHThDQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-24T08:09:09.775475Z","bundle_sha256":"b5fa81c4412a59156758e7f06f0fb100d4cc6e0a69e14499c9a6142f2b38867b"}}