{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:2NL7GLWHJD7KQYATOJB3NLUNPX","short_pith_number":"pith:2NL7GLWH","schema_version":"1.0","canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","source":{"kind":"arxiv","id":"2505.24864","version":1},"attestation_state":"computed","paper":{"title":"ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Jan Kautz, Jian Hu, Mingjie Liu, Shizhe Diao, Ximing Lu, Xin Dong, Yejin Choi, Yi Dong","submitted_at":"2025-05-30T17:59:01Z","abstract_excerpt":"Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessib"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2505.24864","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-05-30T17:59:01Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"33c56d9f2e98d048c1ca6a3059a987b228b0b887b0acd4a6a75091168adbb09e","abstract_canon_sha256":"852234dd03922db1be81fcc4634741d71824379db6981f19dcf94dbb60bbb8b8"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T20:46:59.303231Z","signature_b64":"ztZ2pO4Al7bT2KgpDj/5i745xSrPwR/R37fEi17bmuPzrp2BU/HEyzyfslx1pxq48m81IKGFQZD/C1t6DrwcBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d357f32ec748fea860137243b6ae8d7de6ae67e3dce0564037f0e4bbf5523562","last_reissued_at":"2026-05-18T20:46:59.301239Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T20:46:59.301239Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Jan Kautz, Jian Hu, Mingjie Liu, Shizhe Diao, Ximing Lu, Xin Dong, Yejin Choi, Yi Dong","submitted_at":"2025-05-30T17:59:01Z","abstract_excerpt":"Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessib"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2505.24864","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2505.24864","created_at":"2026-05-18T20:46:59.301326+00:00"},{"alias_kind":"arxiv_version","alias_value":"2505.24864v1","created_at":"2026-05-18T20:46:59.301326+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.24864","created_at":"2026-05-18T20:46:59.301326+00:00"},{"alias_kind":"pith_short_12","alias_value":"2NL7GLWHJD7K","created_at":"2026-05-18T20:46:59.301326+00:00"},{"alias_kind":"pith_short_16","alias_value":"2NL7GLWHJD7KQYAT","created_at":"2026-05-18T20:46:59.301326+00:00"},{"alias_kind":"pith_short_8","alias_value":"2NL7GLWH","created_at":"2026-05-18T20:46:59.301326+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":18,"internal_anchor_count":18,"sample":[{"citing_arxiv_id":"2508.20697","citing_title":"Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2509.02547","citing_title":"The Landscape of Agentic Reinforcement Learning for LLMs: A Survey","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2509.25454","citing_title":"DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10150","citing_title":"Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2512.05591","citing_title":"Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2510.13786","citing_title":"The Art of Scaling Reinforcement Learning Compute for LLMs","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2601.20829","citing_title":"Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2509.09674","citing_title":"SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2603.22267","citing_title":"TiCo: Time-Controllable Spoken Dialogue Model","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12112","citing_title":"When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11461","citing_title":"Breaking $\\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11491","citing_title":"Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11636","citing_title":"Seir\\^enes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08686","citing_title":"Iterative Critique-and-Routing Controller for Multi-Agent Systems with Heterogeneous LLMs","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2505.05470","citing_title":"Flow-GRPO: Training Flow Matching Models via Online RL","ref_index":71,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16995","citing_title":"SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17614","citing_title":"Characterizing Model-Native Skills","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17928","citing_title":"HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment","ref_index":9,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX","json":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX.json","graph_json":"https://pith.science/api/pith-number/2NL7GLWHJD7KQYATOJB3NLUNPX/graph.json","events_json":"https://pith.science/api/pith-number/2NL7GLWHJD7KQYATOJB3NLUNPX/events.json","paper":"https://pith.science/paper/2NL7GLWH"},"agent_actions":{"view_html":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX","download_json":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX.json","view_paper":"https://pith.science/paper/2NL7GLWH","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2505.24864&json=true","fetch_graph":"https://pith.science/api/pith-number/2NL7GLWHJD7KQYATOJB3NLUNPX/graph.json","fetch_events":"https://pith.science/api/pith-number/2NL7GLWHJD7KQYATOJB3NLUNPX/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/action/timestamp_anchor","attest_storage":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/action/storage_attestation","attest_author":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/action/author_attestation","sign_citation":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/action/citation_signature","submit_replication":"https://pith.science/pith/2NL7GLWHJD7KQYATOJB3NLUNPX/action/replication_record"}},"created_at":"2026-05-18T20:46:59.301326+00:00","updated_at":"2026-05-18T20:46:59.301326+00:00"}