{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:RMPTP6PHGEWGNBOCG2Q3CHTWLE","short_pith_number":"pith:RMPTP6PH","schema_version":"1.0","canonical_sha256":"8b1f37f9e7312c6685c236a1b11e765920ee25fd4e7b03b7370dde88e2aaab7b","source":{"kind":"arxiv","id":"2406.11931","version":1},"attestation_state":"computed","paper":{"title":"DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence","license":"http://creativecommons.org/licenses/by/4.0/","headline":"An open-source code model matches or exceeds closed-source leaders on coding and math benchmarks after training on six trillion extra tokens.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.SE","authors_text":"Aixin Liu, Bingxuan Wang, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Daya Guo, DeepSeek-AI, Dejian Yang, Deli Chen, Fuli Luo, Hanwei Xu, Huazuo Gao, Jiashi Li, Junxiao Song, Kai Dong, Kang Guan, Liyue Zhang, Peiyi Wang, Qihao Zhu, Qinyu Chen, Qiushi Du, Runxin Xu, Shirong Ma, Wangding Zeng, Wenfeng Liang, Wenjun Gao, Xiao Bi, Xin Xie, Xuan Lu, Yaohui Wang, Yishi Piao, Yukun Li, Yuxiang You, Y. Wu, Zhenda Xie, Zhewen Hao, Zhibin Gou, Zhihong Shao, Zihui Gu","submitted_at":"2024-06-17T13:51:35Z","abstract_excerpt":"We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancemen"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2406.11931","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.SE","submitted_at":"2024-06-17T13:51:35Z","cross_cats_sorted":["cs.AI","cs.LG"],"title_canon_sha256":"5ade7b81b2bfee6bda41be857c84238f2338b4abe648694e6ddb4ae106aa7a59","abstract_canon_sha256":"b5874c8bedd8029dece000b6d162d5db3239f80b23b0a4f337f298e1ef467364"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.520742Z","signature_b64":"5xojkCUmAE2YcRnyNkHt1o4xgjXuCdWjLIIL5WVfYyxpzsmdiYfEmRcakWspQSX2x1s8k/V3H6ZJBBBymQjJBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"8b1f37f9e7312c6685c236a1b11e765920ee25fd4e7b03b7370dde88e2aaab7b","last_reissued_at":"2026-05-17T23:38:49.520181Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.520181Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence","license":"http://creativecommons.org/licenses/by/4.0/","headline":"An open-source code model matches or exceeds closed-source leaders on coding and math benchmarks after training on six trillion extra tokens.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.SE","authors_text":"Aixin Liu, Bingxuan Wang, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Daya Guo, DeepSeek-AI, Dejian Yang, Deli Chen, Fuli Luo, Hanwei Xu, Huazuo Gao, Jiashi Li, Junxiao Song, Kai Dong, Kang Guan, Liyue Zhang, Peiyi Wang, Qihao Zhu, Qinyu Chen, Qiushi Du, Runxin Xu, Shirong Ma, Wangding Zeng, Wenfeng Liang, Wenjun Gao, Xiao Bi, Xin Xie, Xuan Lu, Yaohui Wang, Yishi Piao, Yukun Li, Yuxiang You, Y. Wu, Zhenda Xie, Zhewen Hao, Zhibin Gou, Zhihong Shao, Zihui Gu","submitted_at":"2024-06-17T13:51:35Z","abstract_excerpt":"We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancemen"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the reported benchmark scores reflect genuine generalization rather than overfitting or contamination from training data that overlaps with the test sets.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"An open-source MoE code model matches GPT-4 Turbo on coding and math benchmarks while expanding to 338 languages and 128K context length.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"An open-source code model matches or exceeds closed-source leaders on coding and math benchmarks after training on six trillion extra tokens.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"1ca5d1a763fe67ca64b040f6d6410c6e9b4e33c4da930246323b5f576779b6e1"},"source":{"id":"2406.11931","kind":"arxiv","version":1},"verdict":{"id":"329bd637-3508-4665-8f1c-cf6d8132b12b","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T00:55:13.404239Z","strongest_claim":"DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.","one_line_summary":"An open-source MoE code model matches GPT-4 Turbo on coding and math benchmarks while expanding to 338 languages and 128K context length.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the reported benchmark scores reflect genuine generalization rather than overfitting or contamination from training data that overlaps with the test sets.","pith_extraction_headline":"An open-source code model matches or exceeds closed-source leaders on coding and math benchmarks after training on six trillion extra tokens."},"references":{"count":27,"sample":[{"doi":"","year":null,"title":"Santacoder: don’t reach for the stars! arXiv preprint arXiv:2301.03988","work_id":"bf393c50-a11b-4a0f-8513-52428ede71f7","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Program Synthesis with Large Language Models","work_id":"fd241a05-03b9-4de2-9588-9d77ce176125","ref_index":2,"cited_arxiv_id":"2108.07732","is_internal_anchor":true},{"doi":"","year":null,"title":"Evaluating Large Language Models Trained on Code","work_id":"042493e9-b26f-4b4e-bbde-382072ca9b08","ref_index":3,"cited_arxiv_id":"2107.03374","is_internal_anchor":true},{"doi":"","year":null,"title":"Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge","work_id":"28ea1282-d657-4c61-a83c-f1249be6d6b1","ref_index":5,"cited_arxiv_id":"1803.05457","is_internal_anchor":true},{"doi":"","year":null,"title":"Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators","work_id":"ef25adcf-addb-445e-b3b5-858eeb9883ca","ref_index":6,"cited_arxiv_id":"2404.04475","is_internal_anchor":true}],"resolved_work":27,"snapshot_sha256":"68bd6d44a2f2f4b1c55daed8866b592441353760545f1cd5ec839c14881a4d0e","internal_anchors":19},"formal_canon":{"evidence_count":2,"snapshot_sha256":"e4478a5856478610a9753aecabf8167e5f388dbe843c1c9ab8a8c6df4b65576b"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2406.11931","created_at":"2026-05-17T23:38:49.520266+00:00"},{"alias_kind":"arxiv_version","alias_value":"2406.11931v1","created_at":"2026-05-17T23:38:49.520266+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2406.11931","created_at":"2026-05-17T23:38:49.520266+00:00"},{"alias_kind":"pith_short_12","alias_value":"RMPTP6PHGEWG","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"RMPTP6PHGEWGNBOC","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"RMPTP6PH","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":35,"internal_anchor_count":35,"sample":[{"citing_arxiv_id":"2502.06556","citing_title":"MultiFileTest: A Multi-File-Level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2503.13549","citing_title":"A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2507.15698","citing_title":"CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models in Mathematical Reasoning","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18766","citing_title":"Retrieve Only Relevant Tables Whether Few or Many: Adaptive Table Retrieval Method","ref_index":100,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17957","citing_title":"Contextualized Code Pretraining for Code Generation","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19102","citing_title":"Prompt Optimization for LLM Code Generation via Reinforcement Learning","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2506.18315","citing_title":"Effective LLM Code Refinement via Property-Oriented and Structurally Minimal Feedback","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2507.21990","citing_title":"ChemDFM-R: A Chemical Reasoning LLM Enhanced with Atomized Chemical Knowledge","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2406.18629","citing_title":"Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2509.14635","citing_title":"SWE-QA: Can Language Models Answer Repository-level Code Questions?","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2506.17298","citing_title":"Mercury: Ultra-Fast Language Models Based on Diffusion","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2509.19349","citing_title":"ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution","ref_index":124,"is_internal_anchor":true},{"citing_arxiv_id":"2501.07301","citing_title":"The Lessons of Developing Process Reward Models in Mathematical Reasoning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2601.12910","citing_title":"SciCoQA: Quality Assurance for Scientific Paper--Code Alignment","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2601.22925","citing_title":"BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models","ref_index":81,"is_internal_anchor":true},{"citing_arxiv_id":"2602.01785","citing_title":"CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding","ref_index":114,"is_internal_anchor":true},{"citing_arxiv_id":"2406.08464","citing_title":"Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing","ref_index":166,"is_internal_anchor":true},{"citing_arxiv_id":"2406.20094","citing_title":"Scaling Synthetic Data Creation with 1,000,000,000 Personas","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2603.00166","citing_title":"Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03245","citing_title":"FVRuleLearner: Operator-Level Reasoning Tree (OP-Tree)-Based Rules Learning for Formal Verification","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2408.15664","citing_title":"Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2502.18449","citing_title":"SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2410.07985","citing_title":"Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02776","citing_title":"Evaluating the Environmental Impact of using SLMs and Prompt Engineering for Code Generation","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03144","citing_title":"InCoder-32B-Thinking: Industrial Code World Model for Thinking","ref_index":9,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE","json":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE.json","graph_json":"https://pith.science/api/pith-number/RMPTP6PHGEWGNBOCG2Q3CHTWLE/graph.json","events_json":"https://pith.science/api/pith-number/RMPTP6PHGEWGNBOCG2Q3CHTWLE/events.json","paper":"https://pith.science/paper/RMPTP6PH"},"agent_actions":{"view_html":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE","download_json":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE.json","view_paper":"https://pith.science/paper/RMPTP6PH","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2406.11931&json=true","fetch_graph":"https://pith.science/api/pith-number/RMPTP6PHGEWGNBOCG2Q3CHTWLE/graph.json","fetch_events":"https://pith.science/api/pith-number/RMPTP6PHGEWGNBOCG2Q3CHTWLE/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE/action/timestamp_anchor","attest_storage":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE/action/storage_attestation","attest_author":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE/action/author_attestation","sign_citation":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE/action/citation_signature","submit_replication":"https://pith.science/pith/RMPTP6PHGEWGNBOCG2Q3CHTWLE/action/replication_record"}},"created_at":"2026-05-17T23:38:49.520266+00:00","updated_at":"2026-05-17T23:38:49.520266+00:00"}