{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2018:7T3424ZW4UOUNTALAQFAFOB65U","short_pith_number":"pith:7T3424ZW","schema_version":"1.0","canonical_sha256":"fcf7cd7336e51d46cc0b040a02b83eed3cd7b237b294bbda49ec9c13048edbde","source":{"kind":"arxiv","id":"1802.05799","version":3},"attestation_state":"computed","paper":{"title":"Horovod: fast and easy distributed deep learning in TensorFlow","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Alexander Sergeev, Mike Del Balso","submitted_at":"2018-02-15T23:36:51Z","abstract_excerpt":"Training modern deep learning models requires large amounts of computation, often provided by GPUs. Scaling computation from one GPU to many can enable much faster training and research progress but entails two complications. First, the training library must support inter-GPU communication. Depending on the particular methods employed, this communication may entail anywhere from negligible to significant overhead. Second, the user must modify his or her training code to take advantage of inter-GPU communication. Depending on the training library's API, the modification required may be either s"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1802.05799","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-02-15T23:36:51Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"a5b3221535dc2836bcf53c2cf2785ebea0dd97741040a54f8df3dcd7aa330ac2","abstract_canon_sha256":"b8888d1368e2258ea1262d6297b24c12b91be85e977aa5d74a9afb8ad1f61622"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:22:50.641867Z","signature_b64":"ORAq5rt8EvmRD2g16sBknK/+5Y16sDw0WORP5P2J3r+pt4c67scmkfc2OmJqJ4+t5Ka8v3nYaaSsjU2krsIGCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"fcf7cd7336e51d46cc0b040a02b83eed3cd7b237b294bbda49ec9c13048edbde","last_reissued_at":"2026-05-18T00:22:50.641491Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:22:50.641491Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Horovod: fast and easy distributed deep learning in TensorFlow","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Alexander Sergeev, Mike Del Balso","submitted_at":"2018-02-15T23:36:51Z","abstract_excerpt":"Training modern deep learning models requires large amounts of computation, often provided by GPUs. Scaling computation from one GPU to many can enable much faster training and research progress but entails two complications. First, the training library must support inter-GPU communication. Depending on the particular methods employed, this communication may entail anywhere from negligible to significant overhead. Second, the user must modify his or her training code to take advantage of inter-GPU communication. Depending on the training library's API, the modification required may be either s"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1802.05799","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1802.05799","created_at":"2026-05-18T00:22:50.641546+00:00"},{"alias_kind":"arxiv_version","alias_value":"1802.05799v3","created_at":"2026-05-18T00:22:50.641546+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1802.05799","created_at":"2026-05-18T00:22:50.641546+00:00"},{"alias_kind":"pith_short_12","alias_value":"7T3424ZW4UOU","created_at":"2026-05-18T12:32:11.075285+00:00"},{"alias_kind":"pith_short_16","alias_value":"7T3424ZW4UOUNTAL","created_at":"2026-05-18T12:32:11.075285+00:00"},{"alias_kind":"pith_short_8","alias_value":"7T3424ZW","created_at":"2026-05-18T12:32:11.075285+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":34,"internal_anchor_count":19,"sample":[{"citing_arxiv_id":"2605.11215","citing_title":"ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2303.05330","citing_title":"Cloudless-Training: A Framework to Improve Efficiency of Geo-Distributed ML Training","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2410.21316","citing_title":"Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2504.01496","citing_title":"Entanglement and Bell Nonlocality in $\\tau^+ \\tau^-$ at the LHC using Machine Learning for Neutrino Reconstruction","ref_index":75,"is_internal_anchor":true},{"citing_arxiv_id":"2504.09844","citing_title":"MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21603","citing_title":"DynaFlow: Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22428","citing_title":"Exploiting Multicast for Accelerating Collective Communication","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06534","citing_title":"ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18591","citing_title":"Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation","ref_index":126,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18404","citing_title":"JanusPipe: Efficient Pipeline Parallel Training for Machine Learning Interatomic Potentials","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18750","citing_title":"A Readiness-Driven Runtime for Pipeline-Parallel Training under Runtime Variability","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18404","citing_title":"JanusPipe: Efficient Pipeline Parallel Training for Machine Learning Interatomic Potentials","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2507.06542","citing_title":"On the Surprising Effectiveness of a Single Global Merging in Decentralized Learning","ref_index":76,"is_internal_anchor":true},{"citing_arxiv_id":"2508.21613","citing_title":"Chameleon: Adaptive Fault Tolerance for Distributed Training via Real-time Policy Selection","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2509.21275","citing_title":"InfiniPipe: Elastic Pipeline Parallelism for Efficient Variable-Length Long-Context LLM Training","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2510.19783","citing_title":"On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2006.15704","citing_title":"PyTorch Distributed: Experiences on Accelerating Data Parallel Training","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16233","citing_title":"DistributedEstimator: Distributed Training of Quantum Neural Networks via Circuit Cutting","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14493","citing_title":"Deep Learning for Solving and Estimating Dynamic Models in Economics and Finance","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12396","citing_title":"NCCLZ: Compression-Enabled GPU Collectives with Decoupled Quantization and Entropy Coding","ref_index":1,"is_internal_anchor":false},{"citing_arxiv_id":"2605.11111","citing_title":"ShardTensor: Domain Parallelism for Scientific Machine Learning","ref_index":51,"is_internal_anchor":false},{"citing_arxiv_id":"2605.11215","citing_title":"ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload","ref_index":30,"is_internal_anchor":false},{"citing_arxiv_id":"2310.01889","citing_title":"Ring Attention with Blockwise Transformers for Near-Infinite Context","ref_index":36,"is_internal_anchor":false},{"citing_arxiv_id":"2605.09176","citing_title":"Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers","ref_index":38,"is_internal_anchor":false},{"citing_arxiv_id":"2605.10741","citing_title":"AdaPaD: Adaptive Parallel Deflation for PEFT with Self-Correcting Rank Discovery","ref_index":58,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U","json":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U.json","graph_json":"https://pith.science/api/pith-number/7T3424ZW4UOUNTALAQFAFOB65U/graph.json","events_json":"https://pith.science/api/pith-number/7T3424ZW4UOUNTALAQFAFOB65U/events.json","paper":"https://pith.science/paper/7T3424ZW"},"agent_actions":{"view_html":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U","download_json":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U.json","view_paper":"https://pith.science/paper/7T3424ZW","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1802.05799&json=true","fetch_graph":"https://pith.science/api/pith-number/7T3424ZW4UOUNTALAQFAFOB65U/graph.json","fetch_events":"https://pith.science/api/pith-number/7T3424ZW4UOUNTALAQFAFOB65U/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U/action/timestamp_anchor","attest_storage":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U/action/storage_attestation","attest_author":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U/action/author_attestation","sign_citation":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U/action/citation_signature","submit_replication":"https://pith.science/pith/7T3424ZW4UOUNTALAQFAFOB65U/action/replication_record"}},"created_at":"2026-05-18T00:22:50.641546+00:00","updated_at":"2026-05-18T00:22:50.641546+00:00"}