{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:GEDPD23OMDEPFDLF5LVKOM75XW","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"08223f67e8a7c930b065a0f7a989b30e456a42eb8b93020ca5b2d9bde945bbc5","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-29T16:12:54Z","title_canon_sha256":"df17526429ffbeffdba8165ae421c17af2bde4eaaa364bcfdf212283ed3572c5"},"schema_version":"1.0","source":{"id":"2605.31490","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.31490","created_at":"2026-06-01T02:04:08Z"},{"alias_kind":"arxiv_version","alias_value":"2605.31490v1","created_at":"2026-06-01T02:04:08Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.31490","created_at":"2026-06-01T02:04:08Z"},{"alias_kind":"pith_short_12","alias_value":"GEDPD23OMDEP","created_at":"2026-06-01T02:04:08Z"},{"alias_kind":"pith_short_16","alias_value":"GEDPD23OMDEPFDLF","created_at":"2026-06-01T02:04:08Z"},{"alias_kind":"pith_short_8","alias_value":"GEDPD23O","created_at":"2026-06-01T02:04:08Z"}],"graph_snapshots":[{"event_id":"sha256:b5446cb0d1e84559e2dc1bef3295bcbbeb2dfc31df5b9b22c7617bbdde84bd5e","target":"graph","created_at":"2026-06-01T02:04:08Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2605.31490/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"On-policy distillation (OPD) provides dense teacher feedback along rollouts generated by the student and has emerged as a promising post-training paradigm for long-horizon reasoning. However, standard OPD typically generates full rollouts during training, which is computationally expensive and may expose the student to unreliable teacher feedback at late rollout positions, especially during early training. We identify the rollout horizon as a key bottleneck in OPD that substantially impacts training efficiency. Unlike Reinforcement Learning with Verifiable Rewards (RLVR), OPD does not require ","authors_text":"Dongbin Zhao, Guojun Yin, Jiajun Chai, Qichao Zhang, Songjun Tu, Wei Lin, Xiaohan Wang, Yaocheng Zhang, Yuanheng Zhu, Yuqian Fu","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-29T16:12:54Z","title":"Are Full Rollouts Necessary for On-Policy Distillation?"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.31490","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:1247473584f4f7e58b631ac1440c1eabb3bc925c57fc9f5f6e8b263947e4a933","target":"record","created_at":"2026-06-01T02:04:08Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"08223f67e8a7c930b065a0f7a989b30e456a42eb8b93020ca5b2d9bde945bbc5","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-29T16:12:54Z","title_canon_sha256":"df17526429ffbeffdba8165ae421c17af2bde4eaaa364bcfdf212283ed3572c5"},"schema_version":"1.0","source":{"id":"2605.31490","kind":"arxiv","version":1}},"canonical_sha256":"3106f1eb6e60c8f28d65eaeaa733fdbd9c79f641da395417a931a0cec0fba059","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"3106f1eb6e60c8f28d65eaeaa733fdbd9c79f641da395417a931a0cec0fba059","first_computed_at":"2026-06-01T02:04:08.917290Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-01T02:04:08.917290Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"VDyMWMj7uQgFPVvYQUC1KuKK5b96BIOwSBZL2C1zt1dPiMSMQpBSZJzMouSTTZnhYDymmldSriS+fSZwYG40BA==","signature_status":"signed_v1","signed_at":"2026-06-01T02:04:08.918432Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.31490","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:1247473584f4f7e58b631ac1440c1eabb3bc925c57fc9f5f6e8b263947e4a933","sha256:b5446cb0d1e84559e2dc1bef3295bcbbeb2dfc31df5b9b22c7617bbdde84bd5e"],"state_sha256":"7040a9e9b52c301b28ae8618ca741b22d59e7b8b2e64d658a54aec73b3d71fa3"}