{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2025:2NL7GLWHJD7KQYATOJB3NLUNPX","short_pith_number":"pith:2NL7GLWH","canonical_record":{"source":{"id":"2505.24864","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"33c56d9f2e98d048c1ca6a3059a987b228b0b887b0acd4a6a75091168adbb09e","abstract_canon_sha256":"852234dd03922db1be81fcc4634741d71824379db6981f19dcf94dbb60bbb8b8"},"schema_version":"1.0"},"canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","source":{"kind":"arxiv","id":"2505.24864","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2505.24864","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"arxiv_version","alias_value":"2505.24864v1","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.24864","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_12","alias_value":"2NL7GLWHJD7K","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_16","alias_value":"2NL7GLWHJD7KQYAT","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_8","alias_value":"2NL7GLWH","created_at":"2026-05-18T20:46:59Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2025:2NL7GLWHJD7KQYATOJB3NLUNPX","target":"record","payload":{"canonical_record":{"source":{"id":"2505.24864","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"33c56d9f2e98d048c1ca6a3059a987b228b0b887b0acd4a6a75091168adbb09e","abstract_canon_sha256":"852234dd03922db1be81fcc4634741d71824379db6981f19dcf94dbb60bbb8b8"},"schema_version":"1.0"},"canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T20:46:59.303231Z","signature_b64":"ztZ2pO4Al7bT2KgpDj/5i745xSrPwR/R37fEi17bmuPzrp2BU/HEyzyfslx1pxq48m81IKGFQZD/C1t6DrwcBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","last_reissued_at":"2026-05-18T20:46:59.301239Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T20:46:59.301239Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2505.24864","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T20:46:59Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"k7XCRGiCVWTD8zGoarWLBHa9TUnSOqbqW7LNLb5yTHNk84gMHwVYpEdIKyrQfdgtrlLV6YlbZNcBinMqSPi3CA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-20T18:08:45.738222Z"},"content_sha256":"a06ebed25eb900a97e13bc2bb0ac31f8b741c26864de1f1c767a544b4c915702","schema_version":"1.0","event_id":"sha256:a06ebed25eb900a97e13bc2bb0ac31f8b741c26864de1f1c767a544b4c915702"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2025:2NL7GLWHJD7KQYATOJB3NLUNPX","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Jan Kautz, Jian Hu, Mingjie Liu, Shizhe Diao, Ximing Lu, Xin Dong, Yejin Choi, Yi Dong","submitted_at":"2025-05-30T17:59:01Z","abstract_excerpt":"Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessib"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2505.24864","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T20:46:59Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"PNdcBho44QhC372DOB9jwY3ES6whUWtp6YWFPetGXRHFQBtHRErilePIOIT2JFRompcyo1yhSrPPORb05ZmpAA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-20T18:08:45.738751Z"},"content_sha256":"3aac1dfd1d0babeec06eedf2504487fdc72aa76f50743568c9bb86b3fd0c22a4","schema_version":"1.0","event_id":"sha256:3aac1dfd1d0babeec06eedf2504487fdc72aa76f50743568c9bb86b3fd0c22a4"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/bundle.json","state_url":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-20T18:08:45Z","links":{"resolver":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX","bundle":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/bundle.json","state":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/state.json","well_known_bundle":"https://pith.science/.well-known/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:2NL7GLWHJD7KQYATOJB3NLUNPX","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"852234dd03922db1be81fcc4634741d71824379db6981f19dcf94dbb60bbb8b8","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","title_canon_sha256":"33c56d9f2e98d048c1ca6a3059a987b228b0b887b0acd4a6a75091168adbb09e"},"schema_version":"1.0","source":{"id":"2505.24864","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2505.24864","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"arxiv_version","alias_value":"2505.24864v1","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.24864","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_12","alias_value":"2NL7GLWHJD7K","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_16","alias_value":"2NL7GLWHJD7KQYAT","created_at":"2026-05-18T20:46:59Z"},{"alias_kind":"pith_short_8","alias_value":"2NL7GLWH","created_at":"2026-05-18T20:46:59Z"}],"graph_snapshots":[{"event_id":"sha256:3aac1dfd1d0babeec06eedf2504487fdc72aa76f50743568c9bb86b3fd0c22a4","target":"graph","created_at":"2026-05-18T20:46:59Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessib","authors_text":"Jan Kautz, Jian Hu, Mingjie Liu, Shizhe Diao, Ximing Lu, Xin Dong, Yejin Choi, Yi Dong","cross_cats":["cs.AI"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","title":"ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2505.24864","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:a06ebed25eb900a97e13bc2bb0ac31f8b741c26864de1f1c767a544b4c915702","target":"record","created_at":"2026-05-18T20:46:59Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"852234dd03922db1be81fcc4634741d71824379db6981f19dcf94dbb60bbb8b8","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","title_canon_sha256":"33c56d9f2e98d048c1ca6a3059a987b228b0b887b0acd4a6a75091168adbb09e"},"schema_version":"1.0","source":{"id":"2505.24864","kind":"arxiv","version":1}},"canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","first_computed_at":"2026-05-18T20:46:59.301239Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T20:46:59.301239Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"ztZ2pO4Al7bT2KgpDj/5i745xSrPwR/R37fEi17bmuPzrp2BU/HEyzyfslx1pxq48m81IKGFQZD/C1t6DrwcBA==","signature_status":"signed_v1","signed_at":"2026-05-18T20:46:59.303231Z","signed_message":"canonical_sha256_bytes"},"source_id":"2505.24864","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:a06ebed25eb900a97e13bc2bb0ac31f8b741c26864de1f1c767a544b4c915702","sha256:3aac1dfd1d0babeec06eedf2504487fdc72aa76f50743568c9bb86b3fd0c22a4"],"state_sha256":"d32f748e16be62f41f5e12bad9b7d60dcd9a57ed92227bbd216ef00bffbe6a52"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"dmx2opQ8T1ioJm7HSJIJg5p9wOFFzE5Ie0Bewax8sPta71SAIoAckcVCUz/q5P0FyLd+Qu81R1Opjq4UWoKwAA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-20T18:08:45.740890Z","bundle_sha256":"8d24a5af3904172f108c0db458349f9ea57203e80fb7fc02f1b64cde252160c6"}}