{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:K23IIK52XR4XTZBXFHFTYLIWDJ","short_pith_number":"pith:K23IIK52","schema_version":"1.0","canonical_sha256":"56b6842bbabc7979e43729cb3c2d161a48f64b1d54720bbcd63b14c749cae2a5","source":{"kind":"arxiv","id":"2605.14539","version":1},"attestation_state":"computed","paper":{"title":"Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards","license":"http://creativecommons.org/licenses/by/4.0/","headline":"CIPO turns failed LLM trajectories into correction signals to boost reasoning over standard RLVR.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Boxi Cao, Hongyu Lin, Jie Lou, Le Sun, Mengjie Ren, Xianpei Han, Xing Yu, Xueru Wen, Yaojie Lu","submitted_at":"2026-05-14T08:22:21Z","abstract_excerpt":"Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2605.14539","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2026-05-14T08:22:21Z","cross_cats_sorted":[],"title_canon_sha256":"968d10feccf4a4b3c822fcf703350664781297d87189e9257cc76965a348f1e2","abstract_canon_sha256":"40aa3402e4bfa600afd95ae59ac2cae7e25c8c6d54bfbfd70ea2869630467578"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:05.848342Z","signature_b64":"1e+Dzo72QsK/hfl4vc3hPLZ1ICiq5lLuQUx0rM9QGEzqj3tVvyy2F/OkKuRe0+bPVSUBthI2YMcWcmjy8QxHBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"56b6842bbabc7979e43729cb3c2d161a48f64b1d54720bbcd63b14c749cae2a5","last_reissued_at":"2026-05-17T23:39:05.847782Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:05.847782Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards","license":"http://creativecommons.org/licenses/by/4.0/","headline":"CIPO turns failed LLM trajectories into correction signals to boost reasoning over standard RLVR.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Boxi Cao, Hongyu Lin, Jie Lou, Le Sun, Mengjie Ren, Xianpei Han, Xing Yu, Xueru Wen, Yaojie Lu","submitted_at":"2026-05-14T08:22:21Z","abstract_excerpt":"Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective paradigm for improving the reasoning capabilities of large language models. However, RLVR training is often hindered by sparse binary rewards and weak credit assignment, resulting in ambiguous optimization signals and underutilization of the useful information embedded in failed trajectories. To address this challenge, we propose Correction-Oriented Policy Optimization (CIPO), a simple and effective extension to RLVR that converts on-policy failed trajectories into correction-oriented supervision, without relying"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That correction samples derived from on-policy failed trajectories supply net-positive supervision without introducing harmful noise or distribution shift that would degrade overall policy performance.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"CIPO jointly optimizes standard RLVR rewards with correction samples derived from the model's own failed attempts, yielding better reasoning and self-correction on math and code benchmarks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"CIPO turns failed LLM trajectories into correction signals to boost reasoning over standard RLVR.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"2005dd4cfa810186e1b5cd15aed9c5adcf276415d4b5c4d46dce8361a726164f"},"source":{"id":"2605.14539","kind":"arxiv","version":1},"verdict":{"id":"d930ebb1-6e1d-4c18-8996-14e43af8aabe","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T01:38:00.295122Z","strongest_claim":"CIPO consistently and significantly outperforms strong baselines in both reasoning and correction performance. Moreover, CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers.","one_line_summary":"CIPO jointly optimizes standard RLVR rewards with correction samples derived from the model's own failed attempts, yielding better reasoning and self-correction on math and code benchmarks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That correction samples derived from on-policy failed trajectories supply net-positive supervision without introducing harmful noise or distribution shift that would degrade overall policy performance.","pith_extraction_headline":"CIPO turns failed LLM trajectories into correction signals to boost reasoning over standard RLVR."},"references":{"count":47,"sample":[{"doi":"","year":2024,"title":"OpenAI, :, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, ","work_id":"f3016aeb-3b1c-4617-9c56-a322e1a09781","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li","work_id":"9f1eb585-5a3d-4c04-a439-dc08b9863741","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxian","work_id":"3ccb429b-2c84-42ec-9825-84ab85bcf113","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y . K. Li, Y . Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in ope","work_id":"579577ed-9729-4abb-84a2-3aef21f8231a","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2026,"title":"Reinforcement Learning via Self-Distillation","work_id":"b193541d-5853-4ea4-8e4b-8e4c08617eb6","ref_index":5,"cited_arxiv_id":"2601.20802","is_internal_anchor":true}],"resolved_work":47,"snapshot_sha256":"baa37a11a5aec101dc15d53407a82117523d214f66632ac936d1099d15b18db6","internal_anchors":9},"formal_canon":{"evidence_count":2,"snapshot_sha256":"0b402a2c60339c1036b6c23636dc0d81844a5e9ba9bc9a8d34b7257e8a53fcf7"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.14539","created_at":"2026-05-17T23:39:05.847877+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.14539v1","created_at":"2026-05-17T23:39:05.847877+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.14539","created_at":"2026-05-17T23:39:05.847877+00:00"},{"alias_kind":"pith_short_12","alias_value":"K23IIK52XR4X","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"K23IIK52XR4XTZBX","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"K23IIK52","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ","json":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ.json","graph_json":"https://pith.science/api/pith-number/K23IIK52XR4XTZBXFHFTYLIWDJ/graph.json","events_json":"https://pith.science/api/pith-number/K23IIK52XR4XTZBXFHFTYLIWDJ/events.json","paper":"https://pith.science/paper/K23IIK52"},"agent_actions":{"view_html":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ","download_json":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ.json","view_paper":"https://pith.science/paper/K23IIK52","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.14539&json=true","fetch_graph":"https://pith.science/api/pith-number/K23IIK52XR4XTZBXFHFTYLIWDJ/graph.json","fetch_events":"https://pith.science/api/pith-number/K23IIK52XR4XTZBXFHFTYLIWDJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ/action/storage_attestation","attest_author":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ/action/author_attestation","sign_citation":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ/action/citation_signature","submit_replication":"https://pith.science/pith/K23IIK52XR4XTZBXFHFTYLIWDJ/action/replication_record"}},"created_at":"2026-05-17T23:39:05.847877+00:00","updated_at":"2026-05-17T23:39:05.847877+00:00"}