{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:MQTGOITDFFX42DGZJSF5BAZ66Q","short_pith_number":"pith:MQTGOITD","canonical_record":{"source":{"id":"2605.27293","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T17:06:41Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"a8054a97bbdd889d62576ea0e4b831f0f3f52b63ae6360bd80694e9ebc6be64f","abstract_canon_sha256":"adb1e5a9bf41da2e52c3ce03d1d529038ee274912da2f953407557daa360add8"},"schema_version":"1.0"},"canonical_sha256":"6426672263296fcd0cd94c8bd0833ef40a3bf715ee935af517f5eb2a457a29c0","source":{"kind":"arxiv","id":"2605.27293","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.27293","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"arxiv_version","alias_value":"2605.27293v1","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.27293","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_12","alias_value":"MQTGOITDFFX4","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_16","alias_value":"MQTGOITDFFX42DGZ","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_8","alias_value":"MQTGOITD","created_at":"2026-05-27T02:06:16Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:MQTGOITDFFX42DGZJSF5BAZ66Q","target":"record","payload":{"canonical_record":{"source":{"id":"2605.27293","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T17:06:41Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"a8054a97bbdd889d62576ea0e4b831f0f3f52b63ae6360bd80694e9ebc6be64f","abstract_canon_sha256":"adb1e5a9bf41da2e52c3ce03d1d529038ee274912da2f953407557daa360add8"},"schema_version":"1.0"},"canonical_sha256":"6426672263296fcd0cd94c8bd0833ef40a3bf715ee935af517f5eb2a457a29c0","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-27T02:06:16.091043Z","signature_b64":"hCKNpW5Y68je3Ar4xeTv9mV7JANhAK2jlqg2dIXZEtpuZBOkOi06nbJiDWyEgy4TVO0F6GaHffcRk5aJkysXCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"6426672263296fcd0cd94c8bd0833ef40a3bf715ee935af517f5eb2a457a29c0","last_reissued_at":"2026-05-27T02:06:16.090212Z","signature_status":"signed_v1","first_computed_at":"2026-05-27T02:06:16.090212Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2605.27293","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-27T02:06:16Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"tuP0SNn8X4wBTRGKgYX9cMN0WLMlBYo3jLUu8AOo+99W9jwVeZlA7gpEn5oeMTfJVLqcL4N6sXzKXpsFscxsDw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-07T10:36:26.100245Z"},"content_sha256":"da4f914e62e6bb6bba0ec81bdeb14b691333484b9c6327c83aa36f174af288a3","schema_version":"1.0","event_id":"sha256:da4f914e62e6bb6bba0ec81bdeb14b691333484b9c6327c83aa36f174af288a3"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:MQTGOITDFFX42DGZJSF5BAZ66Q","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Chengchun Shi, Erhan Xu, Francesco Quinzan, Giulia Livieri, Kai Ye, Shijin Gong","submitted_at":"2026-05-26T17:06:41Z","abstract_excerpt":"Reinforcement learning with verifiable rewards has become a standard recipe for improving the reasoning abilities of large language models. Existing algorithms face a tradeoff between computational efficiency and sample efficiency in value estimation and policy learning. We introduce BASIS, a critic-free post-training algorithm designed to address this tradeoff. At each online training step, BASIS samples only one rollout per prompt, but leverages rich information across prompts in the entire batch to improve value function estimation. Our experiments demonstrate that BASIS reduces MSE in valu"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.27293","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.27293/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-27T02:06:16Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"U1efyQsg8mVvUP+QYuii68z9XZyfbsRsmGlxIgAry6sYnDLsW3+ItalYwRwj7zH3cuyDoFomBYIrgqM1gLZKCw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-07T10:36:26.100672Z"},"content_sha256":"33316baa22520eca65156a33dbe9587509be16c1afdb5416f204185a2f004a31","schema_version":"1.0","event_id":"sha256:33316baa22520eca65156a33dbe9587509be16c1afdb5416f204185a2f004a31"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/bundle.json","state_url":"https://pith.science/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-07T10:36:26Z","links":{"resolver":"https://pith.science/pith/MQTGOITDFFX42DGZJSF5BAZ66Q","bundle":"https://pith.science/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/bundle.json","state":"https://pith.science/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/state.json","well_known_bundle":"https://pith.science/.well-known/pith/MQTGOITDFFX42DGZJSF5BAZ66Q/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:MQTGOITDFFX42DGZJSF5BAZ66Q","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"adb1e5a9bf41da2e52c3ce03d1d529038ee274912da2f953407557daa360add8","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T17:06:41Z","title_canon_sha256":"a8054a97bbdd889d62576ea0e4b831f0f3f52b63ae6360bd80694e9ebc6be64f"},"schema_version":"1.0","source":{"id":"2605.27293","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.27293","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"arxiv_version","alias_value":"2605.27293v1","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.27293","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_12","alias_value":"MQTGOITDFFX4","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_16","alias_value":"MQTGOITDFFX42DGZ","created_at":"2026-05-27T02:06:16Z"},{"alias_kind":"pith_short_8","alias_value":"MQTGOITD","created_at":"2026-05-27T02:06:16Z"}],"graph_snapshots":[{"event_id":"sha256:33316baa22520eca65156a33dbe9587509be16c1afdb5416f204185a2f004a31","target":"graph","created_at":"2026-05-27T02:06:16Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2605.27293/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning with verifiable rewards has become a standard recipe for improving the reasoning abilities of large language models. Existing algorithms face a tradeoff between computational efficiency and sample efficiency in value estimation and policy learning. We introduce BASIS, a critic-free post-training algorithm designed to address this tradeoff. At each online training step, BASIS samples only one rollout per prompt, but leverages rich information across prompts in the entire batch to improve value function estimation. Our experiments demonstrate that BASIS reduces MSE in valu","authors_text":"Chengchun Shi, Erhan Xu, Francesco Quinzan, Giulia Livieri, Kai Ye, Shijin Gong","cross_cats":["stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T17:06:41Z","title":"BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.27293","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:da4f914e62e6bb6bba0ec81bdeb14b691333484b9c6327c83aa36f174af288a3","target":"record","created_at":"2026-05-27T02:06:16Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"adb1e5a9bf41da2e52c3ce03d1d529038ee274912da2f953407557daa360add8","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T17:06:41Z","title_canon_sha256":"a8054a97bbdd889d62576ea0e4b831f0f3f52b63ae6360bd80694e9ebc6be64f"},"schema_version":"1.0","source":{"id":"2605.27293","kind":"arxiv","version":1}},"canonical_sha256":"6426672263296fcd0cd94c8bd0833ef40a3bf715ee935af517f5eb2a457a29c0","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"6426672263296fcd0cd94c8bd0833ef40a3bf715ee935af517f5eb2a457a29c0","first_computed_at":"2026-05-27T02:06:16.090212Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-27T02:06:16.090212Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"hCKNpW5Y68je3Ar4xeTv9mV7JANhAK2jlqg2dIXZEtpuZBOkOi06nbJiDWyEgy4TVO0F6GaHffcRk5aJkysXCA==","signature_status":"signed_v1","signed_at":"2026-05-27T02:06:16.091043Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.27293","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:da4f914e62e6bb6bba0ec81bdeb14b691333484b9c6327c83aa36f174af288a3","sha256:33316baa22520eca65156a33dbe9587509be16c1afdb5416f204185a2f004a31"],"state_sha256":"e31620d00d1835fbf489685722a19fa8d014de2f29f20a857fe268c32c591a73"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"foIJt8Ss3OwlYUsNicdCaY/YUs3ddM7WuVJpZc39UtJ5beZsZPvlPr70rosUMvtzP5ljBCxxLsbNovASTy1xDg==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-07T10:36:26.103811Z","bundle_sha256":"b096682bc1957c2fbf50470c04aa61e8f9a779f54d46cb9f538daa908a45e5a5"}}