{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:XEJP3DT62MVSB5LRAQKRU6ZG2F","short_pith_number":"pith:XEJP3DT6","schema_version":"1.0","canonical_sha256":"b912fd8e7ed32b20f57104151a7b26d157251f4862caaf5692616c6bc1acbfb6","source":{"kind":"arxiv","id":"2602.21788","version":2},"attestation_state":"computed","paper":{"title":"Efficient Scaling of LLM Training with Flexible Context Parallelism","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.DC","authors_text":"Dongyi Liu, Han Xiao, Jia Li, Wei Zhou, Yifan Niu","submitted_at":"2026-02-25T11:11:53Z","abstract_excerpt":"Scaling long-context capabilities is crucial for Large Language Models (LLMs). However, real-world data contain a large number of sequences with heterogeneous lengths. Existing training libraries for LLMs rely on static parallelism strategies, which suffer from severe load imbalance, redundant communication, and suboptimal hardware utilization under data heterogeneity. In this work, we propose Flexible Context Parallelism (FCP), an efficient parallelism strategy that adaptively reconfigures communication groups and context parallelism degrees during LLM training. We generalize more flexible no"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2602.21788","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.DC","submitted_at":"2026-02-25T11:11:53Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"3222cd00fa07f6c3d0c35629b7be28a499f6a9b573795ae5a5abc1f1600bed9a","abstract_canon_sha256":"acaf62f1888b75746be32c49a00a54a2f1dfd9b2bf81fd15e9138e9423d331eb"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-09T02:08:39.980230Z","signature_b64":"fsFMMpvPHg4Wqxxx3hDPgCoDK+iWo4hcpFBpKqErMZn5zC5EOgWfOqgJb3qvnouH+7pPGkc7QjoSDuYTKmUNDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b912fd8e7ed32b20f57104151a7b26d157251f4862caaf5692616c6bc1acbfb6","last_reissued_at":"2026-06-09T02:08:39.979671Z","signature_status":"signed_v1","first_computed_at":"2026-06-09T02:08:39.979671Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Efficient Scaling of LLM Training with Flexible Context Parallelism","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.DC","authors_text":"Dongyi Liu, Han Xiao, Jia Li, Wei Zhou, Yifan Niu","submitted_at":"2026-02-25T11:11:53Z","abstract_excerpt":"Scaling long-context capabilities is crucial for Large Language Models (LLMs). However, real-world data contain a large number of sequences with heterogeneous lengths. Existing training libraries for LLMs rely on static parallelism strategies, which suffer from severe load imbalance, redundant communication, and suboptimal hardware utilization under data heterogeneity. In this work, we propose Flexible Context Parallelism (FCP), an efficient parallelism strategy that adaptively reconfigures communication groups and context parallelism degrees during LLM training. We generalize more flexible no"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2602.21788","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2602.21788/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2602.21788","created_at":"2026-06-09T02:08:39.979742+00:00"},{"alias_kind":"arxiv_version","alias_value":"2602.21788v2","created_at":"2026-06-09T02:08:39.979742+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2602.21788","created_at":"2026-06-09T02:08:39.979742+00:00"},{"alias_kind":"pith_short_12","alias_value":"XEJP3DT62MVS","created_at":"2026-06-09T02:08:39.979742+00:00"},{"alias_kind":"pith_short_16","alias_value":"XEJP3DT62MVSB5LR","created_at":"2026-06-09T02:08:39.979742+00:00"},{"alias_kind":"pith_short_8","alias_value":"XEJP3DT6","created_at":"2026-06-09T02:08:39.979742+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":1,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2605.27678","citing_title":"Heterogeneous Parallelism for Multimodal Large Language Model Training","ref_index":11,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F","json":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F.json","graph_json":"https://pith.science/api/pith-number/XEJP3DT62MVSB5LRAQKRU6ZG2F/graph.json","events_json":"https://pith.science/api/pith-number/XEJP3DT62MVSB5LRAQKRU6ZG2F/events.json","paper":"https://pith.science/paper/XEJP3DT6"},"agent_actions":{"view_html":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F","download_json":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F.json","view_paper":"https://pith.science/paper/XEJP3DT6","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2602.21788&json=true","fetch_graph":"https://pith.science/api/pith-number/XEJP3DT62MVSB5LRAQKRU6ZG2F/graph.json","fetch_events":"https://pith.science/api/pith-number/XEJP3DT62MVSB5LRAQKRU6ZG2F/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F/action/timestamp_anchor","attest_storage":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F/action/storage_attestation","attest_author":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F/action/author_attestation","sign_citation":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F/action/citation_signature","submit_replication":"https://pith.science/pith/XEJP3DT62MVSB5LRAQKRU6ZG2F/action/replication_record"}},"created_at":"2026-06-09T02:08:39.979742+00:00","updated_at":"2026-06-09T02:08:39.979742+00:00"}