{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:DQ2PYM75YK5RBR6A7FKGA6ZNTN","short_pith_number":"pith:DQ2PYM75","canonical_record":{"source":{"id":"2606.06080","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-04T12:16:39Z","cross_cats_sorted":["cs.AI","cs.CL"],"title_canon_sha256":"8fe4266e6968ed85a5a864fe94068b9143fe92dfd17535c1cf4c7af87837f1c0","abstract_canon_sha256":"d1839729becf21a7d52709d8caac19a945c33b93fe4690b7f1f3027f1ddf0aa3"},"schema_version":"1.0"},"canonical_sha256":"1c34fc33fdc2bb10c7c0f954607b2d9b719db682c5a5051e81df7e1ce0ea95f8","source":{"kind":"arxiv","id":"2606.06080","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.06080","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"arxiv_version","alias_value":"2606.06080v1","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.06080","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_12","alias_value":"DQ2PYM75YK5R","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_16","alias_value":"DQ2PYM75YK5RBR6A","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_8","alias_value":"DQ2PYM75","created_at":"2026-06-05T01:15:32Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:DQ2PYM75YK5RBR6A7FKGA6ZNTN","target":"record","payload":{"canonical_record":{"source":{"id":"2606.06080","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-04T12:16:39Z","cross_cats_sorted":["cs.AI","cs.CL"],"title_canon_sha256":"8fe4266e6968ed85a5a864fe94068b9143fe92dfd17535c1cf4c7af87837f1c0","abstract_canon_sha256":"d1839729becf21a7d52709d8caac19a945c33b93fe4690b7f1f3027f1ddf0aa3"},"schema_version":"1.0"},"canonical_sha256":"1c34fc33fdc2bb10c7c0f954607b2d9b719db682c5a5051e81df7e1ce0ea95f8","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-05T01:15:32.559929Z","signature_b64":"AphEwdBqNyxcoSi/DBLJ8urSHPBQDUoQLItdQuLhIGyshz+u17e1qNhAZyfCGCUb95Ddw6RLJ0OukD15bOu9Cw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"1c34fc33fdc2bb10c7c0f954607b2d9b719db682c5a5051e81df7e1ce0ea95f8","last_reissued_at":"2026-06-05T01:15:32.559280Z","signature_status":"signed_v1","first_computed_at":"2026-06-05T01:15:32.559280Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2606.06080","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-05T01:15:32Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"BN34Dl/M+wdmuZya6rW1Rd0Svt53/7jcuY5YqZcet0QKfSW4F3gmU9UXGoiCVJEFUwsnQ8dDtaqFRLcKHe3XBQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-12T03:43:50.079453Z"},"content_sha256":"0852e0064f1f9bcbb00faa494b3d38e835a9c63abe8252b3af3911a2ad81c385","schema_version":"1.0","event_id":"sha256:0852e0064f1f9bcbb00faa494b3d38e835a9c63abe8252b3af3911a2ad81c385"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:DQ2PYM75YK5RBR6A7FKGA6ZNTN","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"On Advantage Estimates for Max@K Policy Gradients","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.LG","authors_text":"Gouki Minegishi, Kohsei Matsutani, Paavo Parmas, Shota Takashiro, Soichiro Nishimori, Takeshi Kojima, Yongmin Kim, Yusuke Iwasawa, Yutaka Matsuo","submitted_at":"2026-06-04T12:16:39Z","abstract_excerpt":"Reinforcement learning with verifiable rewards is widely used for post-training reasoning models, but sparse outcome rewards make exploration difficult. A complementary approach is to optimize inference-time objectives such as pass@K and max@K directly, yet existing policy-gradient estimators for these objectives use different signals, baselines, and normalizations, making their relationships unclear. We study this issue through baseline design and advantage centering. Starting from the advantage estimator of a leading method in the field, we show that it is policy-gradient unbiased but yields"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.06080","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.06080/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-06-05T01:15:32Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"ZDR7fsGtposkwwpQND+6gCI1zXDLA41cPQGi/m5zjUhfVAdFM9hSy06H+HmEPvMgrgk6UQQ+mzmlwwhjboPWDQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-12T03:43:50.080155Z"},"content_sha256":"c0b9518d168e2d92bef338ce4b1ba422f09c28d74c9e47c7e6b5921866e4087c","schema_version":"1.0","event_id":"sha256:c0b9518d168e2d92bef338ce4b1ba422f09c28d74c9e47c7e6b5921866e4087c"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/bundle.json","state_url":"https://pith.science/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-12T03:43:50Z","links":{"resolver":"https://pith.science/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN","bundle":"https://pith.science/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/bundle.json","state":"https://pith.science/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/state.json","well_known_bundle":"https://pith.science/.well-known/pith/DQ2PYM75YK5RBR6A7FKGA6ZNTN/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:DQ2PYM75YK5RBR6A7FKGA6ZNTN","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"d1839729becf21a7d52709d8caac19a945c33b93fe4690b7f1f3027f1ddf0aa3","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-04T12:16:39Z","title_canon_sha256":"8fe4266e6968ed85a5a864fe94068b9143fe92dfd17535c1cf4c7af87837f1c0"},"schema_version":"1.0","source":{"id":"2606.06080","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.06080","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"arxiv_version","alias_value":"2606.06080v1","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.06080","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_12","alias_value":"DQ2PYM75YK5R","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_16","alias_value":"DQ2PYM75YK5RBR6A","created_at":"2026-06-05T01:15:32Z"},{"alias_kind":"pith_short_8","alias_value":"DQ2PYM75","created_at":"2026-06-05T01:15:32Z"}],"graph_snapshots":[{"event_id":"sha256:c0b9518d168e2d92bef338ce4b1ba422f09c28d74c9e47c7e6b5921866e4087c","target":"graph","created_at":"2026-06-05T01:15:32Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.06080/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning with verifiable rewards is widely used for post-training reasoning models, but sparse outcome rewards make exploration difficult. A complementary approach is to optimize inference-time objectives such as pass@K and max@K directly, yet existing policy-gradient estimators for these objectives use different signals, baselines, and normalizations, making their relationships unclear. We study this issue through baseline design and advantage centering. Starting from the advantage estimator of a leading method in the field, we show that it is policy-gradient unbiased but yields","authors_text":"Gouki Minegishi, Kohsei Matsutani, Paavo Parmas, Shota Takashiro, Soichiro Nishimori, Takeshi Kojima, Yongmin Kim, Yusuke Iwasawa, Yutaka Matsuo","cross_cats":["cs.AI","cs.CL"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-04T12:16:39Z","title":"On Advantage Estimates for Max@K Policy Gradients"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.06080","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:0852e0064f1f9bcbb00faa494b3d38e835a9c63abe8252b3af3911a2ad81c385","target":"record","created_at":"2026-06-05T01:15:32Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"d1839729becf21a7d52709d8caac19a945c33b93fe4690b7f1f3027f1ddf0aa3","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-04T12:16:39Z","title_canon_sha256":"8fe4266e6968ed85a5a864fe94068b9143fe92dfd17535c1cf4c7af87837f1c0"},"schema_version":"1.0","source":{"id":"2606.06080","kind":"arxiv","version":1}},"canonical_sha256":"1c34fc33fdc2bb10c7c0f954607b2d9b719db682c5a5051e81df7e1ce0ea95f8","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"1c34fc33fdc2bb10c7c0f954607b2d9b719db682c5a5051e81df7e1ce0ea95f8","first_computed_at":"2026-06-05T01:15:32.559280Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-05T01:15:32.559280Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"AphEwdBqNyxcoSi/DBLJ8urSHPBQDUoQLItdQuLhIGyshz+u17e1qNhAZyfCGCUb95Ddw6RLJ0OukD15bOu9Cw==","signature_status":"signed_v1","signed_at":"2026-06-05T01:15:32.559929Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.06080","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:0852e0064f1f9bcbb00faa494b3d38e835a9c63abe8252b3af3911a2ad81c385","sha256:c0b9518d168e2d92bef338ce4b1ba422f09c28d74c9e47c7e6b5921866e4087c"],"state_sha256":"b2c4470499c27e65c16b6398525f4f10fb09ef5686037b80ce55378d841eac20"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"6QVIb5IxvveIfh/n0xEQ+zym7KiXhJFWDTSF8wz7KqIN6r1sJTb0hu3Ak3q7IE9LShWDqNusUoLaaqgqUxE5CA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-12T03:43:50.083754Z","bundle_sha256":"87574fa4194ac6208b97ada46431d87f64d7f93437d21fd4c43c77b8fb35ef03"}}