{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2017:CUJAYCDE6F3THP6VBUAFVY37NR","short_pith_number":"pith:CUJAYCDE","schema_version":"1.0","canonical_sha256":"15120c0864f17733bfd50d005ae37f6c490d6d244f6eda36fb42fbf80c7c0be7","source":{"kind":"arxiv","id":"1708.03888","version":3},"attestation_state":"computed","paper":{"title":"Large Batch Training of Convolutional Networks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Boris Ginsburg, Igor Gitman, Yang You","submitted_at":"2017-08-13T11:01:57Z","abstract_excerpt":"A common way to speed up training of large convolutional networks is to add computational units. Training is then performed using data-parallel synchronous Stochastic Gradient Descent (SGD) with mini-batch divided between computational units. With an increase in the number of nodes, the batch size grows. But training with large batch size often results in the lower model accuracy. We argue that the current recipe for large batch training (linear learning rate scaling with warm-up) is not general enough and training may diverge. To overcome this optimization difficulties we propose a new traini"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1708.03888","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2017-08-13T11:01:57Z","cross_cats_sorted":[],"title_canon_sha256":"c7da68d46ef44709cae0811fa643ebd37bb164c7c22bc80471c77bcb15d53b1c","abstract_canon_sha256":"139d36b82a88228572bf1c17ade1e5f814b9a6680d92a66a6d6a897059a41f07"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:35:13.489504Z","signature_b64":"NIycDv3IIlE3aiO3dUfsLLJ2ZQF1Tp8G8Kk5/aEM67GswHt0WC7iFNmgJwAh4wZRFTZd/52RDbLT+qSmipo2AA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"15120c0864f17733bfd50d005ae37f6c490d6d244f6eda36fb42fbf80c7c0be7","last_reissued_at":"2026-05-18T00:35:13.488941Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:35:13.488941Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Large Batch Training of Convolutional Networks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Boris Ginsburg, Igor Gitman, Yang You","submitted_at":"2017-08-13T11:01:57Z","abstract_excerpt":"A common way to speed up training of large convolutional networks is to add computational units. Training is then performed using data-parallel synchronous Stochastic Gradient Descent (SGD) with mini-batch divided between computational units. With an increase in the number of nodes, the batch size grows. But training with large batch size often results in the lower model accuracy. We argue that the current recipe for large batch training (linear learning rate scaling with warm-up) is not general enough and training may diverge. To overcome this optimization difficulties we propose a new traini"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1708.03888","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1708.03888","created_at":"2026-05-18T00:35:13.489011+00:00"},{"alias_kind":"arxiv_version","alias_value":"1708.03888v3","created_at":"2026-05-18T00:35:13.489011+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1708.03888","created_at":"2026-05-18T00:35:13.489011+00:00"},{"alias_kind":"pith_short_12","alias_value":"CUJAYCDE6F3T","created_at":"2026-05-18T12:31:10.602751+00:00"},{"alias_kind":"pith_short_16","alias_value":"CUJAYCDE6F3THP6V","created_at":"2026-05-18T12:31:10.602751+00:00"},{"alias_kind":"pith_short_8","alias_value":"CUJAYCDE","created_at":"2026-05-18T12:31:10.602751+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":33,"internal_anchor_count":21,"sample":[{"citing_arxiv_id":"1906.10822","citing_title":"Gradient Noise Convolution (GNC): Smoothing Loss Function for Distributed Large-Batch SGD","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2505.13196","citing_title":"A Physics-Inspired Optimizer: Velocity Regularized Adam","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22297","citing_title":"One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21557","citing_title":"Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"1904.00962","citing_title":"Large Batch Optimization for Deep Learning: Training BERT in 76 minutes","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2502.07529","citing_title":"Training Deep Learning Models with Norm-Constrained LMOs","ref_index":215,"is_internal_anchor":true},{"citing_arxiv_id":"2603.02667","citing_title":"Unifying Contrastive and Generative Objectives for Visual Understanding and Text-to-Image Generation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16017","citing_title":"Accelerated Gradient Descent for Faster Convergence with Minimal Overhead","ref_index":56,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17671","citing_title":"PEIRA: Learning Predictive Encoders through Inter-View Regressor Alignment","ref_index":68,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17787","citing_title":"Revisiting the Adam-SGD Gap in LLM Pre-Training: The Role of Large Effective Learning Rates","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18106","citing_title":"Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers","ref_index":163,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18528","citing_title":"Scale-Invariant Neural Network Optimization: Norm Geometry and Heavy-Tailed Noise","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15530","citing_title":"Rethinking Neural Network Learning Rates: A Stackelberg Perspective","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04606","citing_title":"Closed-Form Last Layer Optimization","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2102.01293","citing_title":"Scaling Laws for Transfer","ref_index":155,"is_internal_anchor":true},{"citing_arxiv_id":"1910.02054","citing_title":"ZeRO: Memory Optimizations Toward Training Trillion Parameter Models","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2111.06377","citing_title":"Masked Autoencoders Are Scalable Vision Learners","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2105.04906","citing_title":"VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning","ref_index":105,"is_internal_anchor":true},{"citing_arxiv_id":"1910.07113","citing_title":"Solving Rubik's Cube with a Robot Hand","ref_index":118,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14345","citing_title":"Convergence of difference inclusions via a diameter criterion","ref_index":136,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09968","citing_title":"Consolidation-Expansion Operator Mechanics:A Unified Framework for Adaptive Learning","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2002.05709","citing_title":"A Simple Framework for Contrastive Learning of Visual Representations","ref_index":58,"is_internal_anchor":false},{"citing_arxiv_id":"2309.16588","citing_title":"Vision Transformers Need Registers","ref_index":56,"is_internal_anchor":false},{"citing_arxiv_id":"2605.11870","citing_title":"Information theoretic underpinning of self-supervised learning by clustering","ref_index":154,"is_internal_anchor":false},{"citing_arxiv_id":"2605.11111","citing_title":"ShardTensor: Domain Parallelism for Scientific Machine Learning","ref_index":53,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR","json":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR.json","graph_json":"https://pith.science/api/pith-number/CUJAYCDE6F3THP6VBUAFVY37NR/graph.json","events_json":"https://pith.science/api/pith-number/CUJAYCDE6F3THP6VBUAFVY37NR/events.json","paper":"https://pith.science/paper/CUJAYCDE"},"agent_actions":{"view_html":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR","download_json":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR.json","view_paper":"https://pith.science/paper/CUJAYCDE","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1708.03888&json=true","fetch_graph":"https://pith.science/api/pith-number/CUJAYCDE6F3THP6VBUAFVY37NR/graph.json","fetch_events":"https://pith.science/api/pith-number/CUJAYCDE6F3THP6VBUAFVY37NR/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR/action/timestamp_anchor","attest_storage":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR/action/storage_attestation","attest_author":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR/action/author_attestation","sign_citation":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR/action/citation_signature","submit_replication":"https://pith.science/pith/CUJAYCDE6F3THP6VBUAFVY37NR/action/replication_record"}},"created_at":"2026-05-18T00:35:13.489011+00:00","updated_at":"2026-05-18T00:35:13.489011+00:00"}