{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:CGTO6CK7GH5LMD5H2FSJPHWQV7","short_pith_number":"pith:CGTO6CK7","schema_version":"1.0","canonical_sha256":"11a6ef095f31fab60fa7d164979ed0afc5ea6a14d3320363a985ac08f569bb44","source":{"kind":"arxiv","id":"2504.01943","version":2},"attestation_state":"computed","paper":{"title":"OpenCodeReasoning: Advancing Data Distillation for Competitive Coding","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Curating a diverse dataset for supervised fine-tuning lets coding models outperform reinforcement learning on competitive benchmarks.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Aleksander Ficek, Boris Ginsburg, Jocelyn Huang, Sean Narenthiran, Siddhartha Jain, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad","submitted_at":"2025-04-02T17:50:31Z","abstract_excerpt":"Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various siz"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2504.01943","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2025-04-02T17:50:31Z","cross_cats_sorted":[],"title_canon_sha256":"34c6bea33b5a9cb12fd8d3f3014a2aa0d679dff002e6c13132b8b6ce59ae4f67","abstract_canon_sha256":"f7db4dcfc0769cd1fbf77368df90707c829f2c81aca628cd793299b3693a86ce"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.308434Z","signature_b64":"4+L7H0Myh9W56W22YAqqwdpdcuNGZ4n1+tzNaCqbi6BeaBJFBy1Z5pb6BW3Jvp8Ttd61/C3rdth5jUifSREWBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"11a6ef095f31fab60fa7d164979ed0afc5ea6a14d3320363a985ac08f569bb44","last_reissued_at":"2026-05-17T23:38:13.307892Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.307892Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"OpenCodeReasoning: Advancing Data Distillation for Competitive Coding","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Curating a diverse dataset for supervised fine-tuning lets coding models outperform reinforcement learning on competitive benchmarks.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Aleksander Ficek, Boris Ginsburg, Jocelyn Huang, Sean Narenthiran, Siddhartha Jain, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad","submitted_at":"2025-04-02T17:50:31Z","abstract_excerpt":"Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various siz"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That prioritizing instruction and solution diversity over code-execution filtering produces superior benchmark performance, as concluded from their post-training analysis.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"A new open SFT dataset for reasoning distillation lets coding models hit state-of-the-art scores on LiveCodeBench and CodeContests with supervised fine-tuning alone, outperforming RL-trained baselines.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Curating a diverse dataset for supervised fine-tuning lets coding models outperform reinforcement learning on competitive benchmarks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"94b7c1ebcf43f4c5c49ed1858cdafc7fdb6ed046482193d00a7a23a46aae249d"},"source":{"id":"2504.01943","kind":"arxiv","version":2},"verdict":{"id":"7b2eb1ad-2f8a-4773-8af2-effc80f3b2c6","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T19:16:46.259013Z","strongest_claim":"Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning.","one_line_summary":"A new open SFT dataset for reasoning distillation lets coding models hit state-of-the-art scores on LiveCodeBench and CodeContests with supervised fine-tuning alone, outperforming RL-trained baselines.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That prioritizing instruction and solution diversity over code-execution filtering produces superior benchmark performance, as concluded from their post-training analysis.","pith_extraction_headline":"Curating a diverse dataset for supervised fine-tuning lets coding models outperform reinforcement learning on competitive benchmarks."},"references":{"count":27,"sample":[{"doi":"","year":2021,"title":"Unified pre-training for program understanding and generation","work_id":"eb9f47e4-7b74-4aff-b5ea-afee05bf91c0","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.18653/v1/2021.naacl-main.211","year":2021,"title":"Unified Pre-training for Program Understanding and Generation","work_id":"4b70b1ee-c108-4de8-9d25-d8770eead579","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Program Synthesis with Large Language Models","work_id":"fd241a05-03b9-4de2-9588-9d77ce176125","ref_index":3,"cited_arxiv_id":"2108.07732","is_internal_anchor":true},{"doi":"","year":2025,"title":"Evaluating Large Language Models Trained on Code","work_id":"042493e9-b26f-4b4e-bbde-382072ca9b08","ref_index":4,"cited_arxiv_id":"2107.03374","is_internal_anchor":true},{"doi":"","year":null,"title":"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning","work_id":"e6b75ad5-2877-4168-97c8-710407094d20","ref_index":5,"cited_arxiv_id":"2501.12948","is_internal_anchor":true}],"resolved_work":27,"snapshot_sha256":"3f7876529e85604d3df8de73d934c7ac64df61aeb07a0940f99d25b13b514f69","internal_anchors":10},"formal_canon":{"evidence_count":2,"snapshot_sha256":"5196f73509967d08a5f4d67325627fb262fe33269c790d4a96c53d7122f36272"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2504.01943","created_at":"2026-05-17T23:38:13.308000+00:00"},{"alias_kind":"arxiv_version","alias_value":"2504.01943v2","created_at":"2026-05-17T23:38:13.308000+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2504.01943","created_at":"2026-05-17T23:38:13.308000+00:00"},{"alias_kind":"pith_short_12","alias_value":"CGTO6CK7GH5L","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"CGTO6CK7GH5LMD5H","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"CGTO6CK7","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":21,"internal_anchor_count":21,"sample":[{"citing_arxiv_id":"2510.04265","citing_title":"Don't Pass@k: A Bayesian Framework for Large Language Model Evaluation","ref_index":94,"is_internal_anchor":true},{"citing_arxiv_id":"2510.18471","citing_title":"CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2512.20856","citing_title":"NVIDIA Nemotron 3: Efficient and Open Intelligence","ref_index":144,"is_internal_anchor":true},{"citing_arxiv_id":"2509.08827","citing_title":"A Survey of Reinforcement Learning for Large Reasoning Models","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16320","citing_title":"How Robustly do LLMs Understand Execution Semantics?","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2510.25741","citing_title":"Scaling Latent Reasoning via Looped Language Models","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14164","citing_title":"How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11299","citing_title":"Primal Generation, Dual Judgment: Self-Training from Test-Time Scaling","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2603.29957","citing_title":"Think Anywhere in Code Generation","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03144","citing_title":"InCoder-32B-Thinking: Industrial Code World Model for Thinking","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12384","citing_title":"Scalable Token-Level Hallucination Detection in Large Language Models","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2503.24290","citing_title":"Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2503.09567","citing_title":"Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07237","citing_title":"Teaching Language Models to Think in Code","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08477","citing_title":"SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07237","citing_title":"Teaching Language Models to Think in Code","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14847","citing_title":"TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05226","citing_title":"Internalizing Outcome Supervision into Process Supervision: A New Paradigm for Reinforcement Learning for Reasoning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17328","citing_title":"Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18473","citing_title":"Train Separately, Merge Together: Modular Post-Training with Mixture-of-Experts","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25975","citing_title":"Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective","ref_index":2,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7","json":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7.json","graph_json":"https://pith.science/api/pith-number/CGTO6CK7GH5LMD5H2FSJPHWQV7/graph.json","events_json":"https://pith.science/api/pith-number/CGTO6CK7GH5LMD5H2FSJPHWQV7/events.json","paper":"https://pith.science/paper/CGTO6CK7"},"agent_actions":{"view_html":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7","download_json":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7.json","view_paper":"https://pith.science/paper/CGTO6CK7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2504.01943&json=true","fetch_graph":"https://pith.science/api/pith-number/CGTO6CK7GH5LMD5H2FSJPHWQV7/graph.json","fetch_events":"https://pith.science/api/pith-number/CGTO6CK7GH5LMD5H2FSJPHWQV7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7/action/storage_attestation","attest_author":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7/action/author_attestation","sign_citation":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7/action/citation_signature","submit_replication":"https://pith.science/pith/CGTO6CK7GH5LMD5H2FSJPHWQV7/action/replication_record"}},"created_at":"2026-05-17T23:38:13.308000+00:00","updated_at":"2026-05-17T23:38:13.308000+00:00"}