On large-batch training for deep learning: Generalization gap and sharp minima

· 2017

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

Training Deep Visual Networks Beyond Loss and Accuracy Through a Dynamical Systems Approach

cs.CV · 2026-04-08 · unverdicted · novelty 6.0

Introduces integration, metastability, and dynamical stability index measures from layer activations and reports patterns distinguishing CIFAR-10 from CIFAR-100 difficulty plus early convergence signals across ResNet variants, DenseNet, MobileNetV2, VGG-16, and a Vision Transformer.

Implicit Regularization and Generalization in Overparameterized Neural Networks

cs.LG · 2026-04-08 · unverdicted · novelty 3.0

Experiments indicate that small-batch SGD promotes flatter loss minima and better generalization in overparameterized networks, and that sparse subnetworks can retain nearly full accuracy.

citing papers explorer

Showing 2 of 2 citing papers.

Training Deep Visual Networks Beyond Loss and Accuracy Through a Dynamical Systems Approach cs.CV · 2026-04-08 · unverdicted · none · ref 8
Introduces integration, metastability, and dynamical stability index measures from layer activations and reports patterns distinguishing CIFAR-10 from CIFAR-100 difficulty plus early convergence signals across ResNet variants, DenseNet, MobileNetV2, VGG-16, and a Vision Transformer.
Implicit Regularization and Generalization in Overparameterized Neural Networks cs.LG · 2026-04-08 · unverdicted · none · ref 5
Experiments indicate that small-batch SGD promotes flatter loss minima and better generalization in overparameterized networks, and that sparse subnetworks can retain nearly full accuracy.

On large-batch training for deep learning: Generalization gap and sharp minima

fields

years

verdicts

representative citing papers

citing papers explorer