{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:FUVJ4FILYEKL7L4KHTKDY4TULB","short_pith_number":"pith:FUVJ4FIL","schema_version":"1.0","canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","source":{"kind":"arxiv","id":"2501.15383","version":1},"attestation_state":"computed","paper":{"title":"Qwen2.5-1M Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang","submitted_at":"2025-01-26T03:47:25Z","abstract_excerpt":"We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs.\n  To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framewo"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2501.15383","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","cross_cats_sorted":[],"title_canon_sha256":"97f99d8e3785dddb75a5f020e45143cd23e7f0b9a01ed26aa1ffef9640745ec7","abstract_canon_sha256":"a3167e49b630b5c233468baabd7798084c3dd1a790b5345b3aba47aacde405ca"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:53.397287Z","signature_b64":"1QL5deSXN5Z78Fohf9DDY/+t3Ij4e65bciE9f7dtSie1YxECkHD/fYiI0S0F+iRcdTOJz8fbme5Me0CA/fFHBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","last_reissued_at":"2026-05-17T23:38:53.396695Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:53.396695Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Qwen2.5-1M Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang","submitted_at":"2025-01-26T03:47:25Z","abstract_excerpt":"We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs.\n  To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framewo"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b81253586c4666995e4273d1c6323bd6689c411216db3fa49be3166db3f95130"},"source":{"id":"2501.15383","kind":"arxiv","version":1},"verdict":{"id":"c64d29ae-512b-4810-91a3-bd35d6ac11db","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T05:21:00.756306Z","strongest_claim":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.","one_line_summary":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training.","pith_extraction_headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks."},"references":{"count":25,"sample":[{"doi":"","year":null,"title":"arXiv preprint arXiv:2402.17463 , year=","work_id":"a17fa8b4-29df-4838-80b2-c9d3440e8ed5","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Program Synthesis with Large Language Models","work_id":"fd241a05-03b9-4de2-9588-9d77ce176125","ref_index":2,"cited_arxiv_id":"2108.07732","is_internal_anchor":true},{"doi":"","year":null,"title":"Qwen Technical Report","work_id":"bb1fd52f-6b2f-437c-9516-37bdf6eb9be8","ref_index":3,"cited_arxiv_id":"2309.16609","is_internal_anchor":true},{"doi":"","year":null,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.48550/arxiv.2207.14255","year":null,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":25,"snapshot_sha256":"b35cc1de4b94de478317cdef0e403c09e2775b924dab06d3fc661d8c471447b6","internal_anchors":17},"formal_canon":{"evidence_count":2,"snapshot_sha256":"d9edb9e805466f27a6e8aa9c3c5c6bcebec06e6d18895e31d0f6b7e44883ca35"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.15383","created_at":"2026-05-17T23:38:53.396779+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.15383v1","created_at":"2026-05-17T23:38:53.396779+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.15383","created_at":"2026-05-17T23:38:53.396779+00:00"},{"alias_kind":"pith_short_12","alias_value":"FUVJ4FILYEKL","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"FUVJ4FILYEKL7L4K","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"FUVJ4FIL","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":34,"internal_anchor_count":34,"sample":[{"citing_arxiv_id":"2605.20201","citing_title":"Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10129","citing_title":"CacheClip: Accelerating RAG with Effective KV Cache Reuse","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08362","citing_title":"Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07985","citing_title":"Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2510.18830","citing_title":"MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2601.20309","citing_title":"SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21468","citing_title":"MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20201","citing_title":"Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15615","citing_title":"Neutral-Reference Prompting for Vision-Language Models","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18071","citing_title":"KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18607","citing_title":"Forecasting Downstream Performance of LLMs With Proxy Metrics","ref_index":84,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16928","citing_title":"Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2509.24765","citing_title":"Semantic-Aware Logical Reasoning via a Semiotic Framework","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2507.02259","citing_title":"MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13831","citing_title":"Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27723","citing_title":"Optimized Deferral for Imbalanced Settings","ref_index":125,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09778","citing_title":"Nectar: Neural Estimation of Cached-Token Attention via Regression","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09225","citing_title":"The Art of the Jailbreak: Formulating Jailbreak Attacks for LLM Security Beyond Binary Scoring","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06055","citing_title":"Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23156","citing_title":"Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22906","citing_title":"Network Edge Inference for Large Language Models: Principles, Techniques, and Opportunities","ref_index":182,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06221","citing_title":"UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01394","citing_title":"LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14325","citing_title":"Faithfulness Serum: Mitigating the Faithfulness Gap in Textual Explanations of LLM Decisions via Attribution Guidance","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06600","citing_title":"IntervenSim: Intervention-Aware Social Network Simulation for Opinion Dynamics","ref_index":96,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB","json":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB.json","graph_json":"https://pith.science/api/pith-number/FUVJ4FILYEKL7L4KHTKDY4TULB/graph.json","events_json":"https://pith.science/api/pith-number/FUVJ4FILYEKL7L4KHTKDY4TULB/events.json","paper":"https://pith.science/paper/FUVJ4FIL"},"agent_actions":{"view_html":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB","download_json":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB.json","view_paper":"https://pith.science/paper/FUVJ4FIL","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.15383&json=true","fetch_graph":"https://pith.science/api/pith-number/FUVJ4FILYEKL7L4KHTKDY4TULB/graph.json","fetch_events":"https://pith.science/api/pith-number/FUVJ4FILYEKL7L4KHTKDY4TULB/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/action/timestamp_anchor","attest_storage":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/action/storage_attestation","attest_author":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/action/author_attestation","sign_citation":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/action/citation_signature","submit_replication":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/action/replication_record"}},"created_at":"2026-05-17T23:38:53.396779+00:00","updated_at":"2026-05-17T23:38:53.396779+00:00"}