{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:BQLYM5GVCFUWYDKYWFJKBIBRTY","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"568a038320bae155db661b508d36ea7a4ba659db2e41743dd5e3cebed2f86d00","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T06:41:13Z","title_canon_sha256":"9da7ad448f56ee4dc71a9b7a10c015f5f8ed9045a6901ffe55c7b9708a2a3486"},"schema_version":"1.0","source":{"id":"2605.26606","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.26606","created_at":"2026-05-27T01:06:01Z"},{"alias_kind":"arxiv_version","alias_value":"2605.26606v1","created_at":"2026-05-27T01:06:01Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.26606","created_at":"2026-05-27T01:06:01Z"},{"alias_kind":"pith_short_12","alias_value":"BQLYM5GVCFUW","created_at":"2026-05-27T01:06:01Z"},{"alias_kind":"pith_short_16","alias_value":"BQLYM5GVCFUWYDKY","created_at":"2026-05-27T01:06:01Z"},{"alias_kind":"pith_short_8","alias_value":"BQLYM5GV","created_at":"2026-05-27T01:06:01Z"}],"graph_snapshots":[{"event_id":"sha256:a7377993b1428dfc1d797cfe661871a05d94f8bfbfe4cb09d7bbafa4791f20cc","target":"graph","created_at":"2026-05-27T01:06:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2605.26606/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning (RL) is the dominant paradigm for post-training large language models. However, in the online, on-policy setting, rollout generation dominates the computational cost of training. Group-based policy optimization methods compute advantages from multiple rollouts per prompt, yet they indiscriminately allocate budget to prompts with collapsed reward distributions, wasting expensive rollouts on negligible learning signals. We demonstrate that group-based updates are most effective in regimes of high reward variance. Since the policy evolves throughout training, prompt informa","authors_text":"Jialu Liu, Jing Nathan Yan, Woojeong Kim, Ziyi Yang","cross_cats":["cs.AI"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T06:41:13Z","title":"Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.26606","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:eb341251d7a5590d1666cc47b07304377e1543bad4b7b98a59f4a83db0c47018","target":"record","created_at":"2026-05-27T01:06:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"568a038320bae155db661b508d36ea7a4ba659db2e41743dd5e3cebed2f86d00","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-05-26T06:41:13Z","title_canon_sha256":"9da7ad448f56ee4dc71a9b7a10c015f5f8ed9045a6901ffe55c7b9708a2a3486"},"schema_version":"1.0","source":{"id":"2605.26606","kind":"arxiv","version":1}},"canonical_sha256":"0c178674d511696c0d58b152a0a0319e230a18f50aa85e57d38897148bfcf30b","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"0c178674d511696c0d58b152a0a0319e230a18f50aa85e57d38897148bfcf30b","first_computed_at":"2026-05-27T01:06:01.904565Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-27T01:06:01.904565Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"yIE9gbyu2Nf1C3rn4LDO4t/jisu7S+xo3F+/p7chlCEf0ddeP/yMYeax/bdekyEdrQEx0KBw8ULrp7TbvGg8CA==","signature_status":"signed_v1","signed_at":"2026-05-27T01:06:01.905285Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.26606","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:eb341251d7a5590d1666cc47b07304377e1543bad4b7b98a59f4a83db0c47018","sha256:a7377993b1428dfc1d797cfe661871a05d94f8bfbfe4cb09d7bbafa4791f20cc"],"state_sha256":"848781eeb6201cd48161394f07db999348a361b965828980a4a35314b08666f3"}