{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2025:FUVJ4FILYEKL7L4KHTKDY4TULB","short_pith_number":"pith:FUVJ4FIL","canonical_record":{"source":{"id":"2501.15383","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","cross_cats_sorted":[],"title_canon_sha256":"97f99d8e3785dddb75a5f020e45143cd23e7f0b9a01ed26aa1ffef9640745ec7","abstract_canon_sha256":"a3167e49b630b5c233468baabd7798084c3dd1a790b5345b3aba47aacde405ca"},"schema_version":"1.0"},"canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","source":{"kind":"arxiv","id":"2501.15383","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2501.15383","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"arxiv_version","alias_value":"2501.15383v1","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.15383","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"pith_short_12","alias_value":"FUVJ4FILYEKL","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"FUVJ4FILYEKL7L4K","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"FUVJ4FIL","created_at":"2026-05-18T12:33:37Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2025:FUVJ4FILYEKL7L4KHTKDY4TULB","target":"record","payload":{"canonical_record":{"source":{"id":"2501.15383","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","cross_cats_sorted":[],"title_canon_sha256":"97f99d8e3785dddb75a5f020e45143cd23e7f0b9a01ed26aa1ffef9640745ec7","abstract_canon_sha256":"a3167e49b630b5c233468baabd7798084c3dd1a790b5345b3aba47aacde405ca"},"schema_version":"1.0"},"canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:53.397287Z","signature_b64":"1QL5deSXN5Z78Fohf9DDY/+t3Ij4e65bciE9f7dtSie1YxECkHD/fYiI0S0F+iRcdTOJz8fbme5Me0CA/fFHBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","last_reissued_at":"2026-05-17T23:38:53.396695Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:53.396695Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2501.15383","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:38:53Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"rbhm4Lw6x1SkHnCl0qBTdk/JnIOWWpjfp9NoEHZdQb95qjSU6F8lvdUUkLw27YAZ7A+//7Ou+AugUBJUrV3kDw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T20:59:42.835846Z"},"content_sha256":"e215576ebf074bbc67cb765282533a83b2440a96b3e1bdd6729054ce0116df40","schema_version":"1.0","event_id":"sha256:e215576ebf074bbc67cb765282533a83b2440a96b3e1bdd6729054ce0116df40"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2025:FUVJ4FILYEKL7L4KHTKDY4TULB","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Qwen2.5-1M Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","cross_cats":[],"primary_cat":"cs.CL","authors_text":"An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang","submitted_at":"2025-01-26T03:47:25Z","abstract_excerpt":"We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs.\n  To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framewo"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b81253586c4666995e4273d1c6323bd6689c411216db3fa49be3166db3f95130"},"source":{"id":"2501.15383","kind":"arxiv","version":1},"verdict":{"id":"c64d29ae-512b-4810-91a3-bd35d6ac11db","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T05:21:00.756306Z","strongest_claim":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.","one_line_summary":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training.","pith_extraction_headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks."},"references":{"count":25,"sample":[{"doi":"","year":null,"title":"arXiv preprint arXiv:2402.17463 , year=","work_id":"a17fa8b4-29df-4838-80b2-c9d3440e8ed5","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Program Synthesis with Large Language Models","work_id":"fd241a05-03b9-4de2-9588-9d77ce176125","ref_index":2,"cited_arxiv_id":"2108.07732","is_internal_anchor":true},{"doi":"","year":null,"title":"Qwen Technical Report","work_id":"bb1fd52f-6b2f-437c-9516-37bdf6eb9be8","ref_index":3,"cited_arxiv_id":"2309.16609","is_internal_anchor":true},{"doi":"","year":null,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.48550/arxiv.2207.14255","year":null,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":25,"snapshot_sha256":"b35cc1de4b94de478317cdef0e403c09e2775b924dab06d3fc661d8c471447b6","internal_anchors":17},"formal_canon":{"evidence_count":2,"snapshot_sha256":"d9edb9e805466f27a6e8aa9c3c5c6bcebec06e6d18895e31d0f6b7e44883ca35"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":"c64d29ae-512b-4810-91a3-bd35d6ac11db"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:38:53Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"cJGqgp9/uV5vRJhyvpWVrejexQWGB5uSV3W8mf0dBK8V5N9v1vCpuazI48YIaMIJzidK+eJcmt3rN1Q3cBZbAw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-03T20:59:42.836409Z"},"content_sha256":"03e768475000c23edec70a3e97ceaa19cf05e5013f5d20edc70662a379510a72","schema_version":"1.0","event_id":"sha256:03e768475000c23edec70a3e97ceaa19cf05e5013f5d20edc70662a379510a72"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/bundle.json","state_url":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-03T20:59:42Z","links":{"resolver":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB","bundle":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/bundle.json","state":"https://pith.science/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/state.json","well_known_bundle":"https://pith.science/.well-known/pith/FUVJ4FILYEKL7L4KHTKDY4TULB/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:FUVJ4FILYEKL7L4KHTKDY4TULB","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"a3167e49b630b5c233468baabd7798084c3dd1a790b5345b3aba47aacde405ca","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","title_canon_sha256":"97f99d8e3785dddb75a5f020e45143cd23e7f0b9a01ed26aa1ffef9640745ec7"},"schema_version":"1.0","source":{"id":"2501.15383","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2501.15383","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"arxiv_version","alias_value":"2501.15383v1","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.15383","created_at":"2026-05-17T23:38:53Z"},{"alias_kind":"pith_short_12","alias_value":"FUVJ4FILYEKL","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"FUVJ4FILYEKL7L4K","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"FUVJ4FIL","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:03e768475000c23edec70a3e97ceaa19cf05e5013f5d20edc70662a379510a72","target":"graph","created_at":"2026-05-17T23:38:53Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks."}],"snapshot_sha256":"b81253586c4666995e4273d1c6323bd6689c411216db3fa49be3166db3f95130"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"d9edb9e805466f27a6e8aa9c3c5c6bcebec06e6d18895e31d0f6b7e44883ca35"},"paper":{"abstract_excerpt":"We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs.\n  To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framewo","authors_text":"An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang","cross_cats":[],"headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","title":"Qwen2.5-1M Technical Report"},"references":{"count":25,"internal_anchors":17,"resolved_work":25,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"arXiv preprint arXiv:2402.17463 , year=","work_id":"a17fa8b4-29df-4838-80b2-c9d3440e8ed5","year":null},{"cited_arxiv_id":"2108.07732","doi":"","is_internal_anchor":true,"ref_index":2,"title":"Program Synthesis with Large Language Models","work_id":"fd241a05-03b9-4de2-9588-9d77ce176125","year":null},{"cited_arxiv_id":"2309.16609","doi":"","is_internal_anchor":true,"ref_index":3,"title":"Qwen Technical Report","work_id":"bb1fd52f-6b2f-437c-9516-37bdf6eb9be8","year":null},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","year":null},{"cited_arxiv_id":"","doi":"10.48550/arxiv.2207.14255","is_internal_anchor":false,"ref_index":5,"title":"Efficient training of language models to fill in the middle","work_id":"54afe4f8-4d93-4829-99ae-2a27143a9641","year":null}],"snapshot_sha256":"b35cc1de4b94de478317cdef0e403c09e2775b924dab06d3fc661d8c471447b6"},"source":{"id":"2501.15383","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-15T05:21:00.756306Z","id":"c64d29ae-512b-4810-91a3-bd35d6ac11db","model_set":{"reader":"grok-4.3"},"one_line_summary":"Qwen2.5-1M models reach 1M token context with improved long-context performance, no short-context loss, and 3-7x prefill speedup via open inference optimizations.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Qwen2.5-1M models reach 1 million token context length while outperforming GPT-4o-mini on long-context tasks.","strongest_claim":"the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.","weakest_assumption":"That the long data synthesis and progressive pre-training produce genuine generalization rather than overfitting to the synthetic long sequences used in training."}},"verdict_id":"c64d29ae-512b-4810-91a3-bd35d6ac11db"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:e215576ebf074bbc67cb765282533a83b2440a96b3e1bdd6729054ce0116df40","target":"record","created_at":"2026-05-17T23:38:53Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"a3167e49b630b5c233468baabd7798084c3dd1a790b5345b3aba47aacde405ca","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-26T03:47:25Z","title_canon_sha256":"97f99d8e3785dddb75a5f020e45143cd23e7f0b9a01ed26aa1ffef9640745ec7"},"schema_version":"1.0","source":{"id":"2501.15383","kind":"arxiv","version":1}},"canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2d2a9e150bc114bfaf8a3cd43c7274584bcf1221a7d521df84c62256a575a932","first_computed_at":"2026-05-17T23:38:53.396695Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:38:53.396695Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"1QL5deSXN5Z78Fohf9DDY/+t3Ij4e65bciE9f7dtSie1YxECkHD/fYiI0S0F+iRcdTOJz8fbme5Me0CA/fFHBQ==","signature_status":"signed_v1","signed_at":"2026-05-17T23:38:53.397287Z","signed_message":"canonical_sha256_bytes"},"source_id":"2501.15383","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:e215576ebf074bbc67cb765282533a83b2440a96b3e1bdd6729054ce0116df40","sha256:03e768475000c23edec70a3e97ceaa19cf05e5013f5d20edc70662a379510a72"],"state_sha256":"e024f3ca05df33d6fd2d468d6fee7b291f544c56144e2781d06a0178c85a006c"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"5hxraMfyfu/HHh6x4+B5ZTbJlo23ibXbKKYMsdqqWK4DNQAhTD7zNaKfT/JbtXBpIr/aJSjr2Uv8XldVtL/eDA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-03T20:59:42.838720Z","bundle_sha256":"c33104ae32bc0f0ad295ca281b5dd5d0f44b347a7f4216dfd5a3b85c80414605"}}