Symmetry in neural network parameter spaces

Bo Zhao, Robin Walters, Rose Yu · 2025 · arXiv 2506.13018

6 Pith papers cite this work. Polarity classification is still indexing.

6 Pith papers citing it

read on arXiv browse 6 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Most ReLU Networks Admit Identifiable Parameters

cs.LG · 2026-05-05 · unverdicted · novelty 8.0

For ReLU networks with width at least two in input and hidden layers, an open set of parameters is identifiable, implying functional dimension equals parameter count minus hidden neurons.

A Complete Symmetry Classification of Shallow ReLU Networks

cs.LG · 2026-04-15 · unverdicted · novelty 8.0

A complete classification of symmetries in shallow ReLU networks is achieved by using the non-differentiability of ReLU.

Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks

cs.LG · 2026-06-28 · unverdicted · novelty 7.0

Dead-Direction Conditioners provide gauge-equivariant preconditioning by conditioning optimizer state on symmetry orbits, yielding improved resistance to over-training collapse and higher detection of dead directions compared to AdamW and Muon.

Beyond Structural Symmetries: Linear Mode Connectivity via Neuron Identifiability

cs.LG · 2026-06-03 · unverdicted · novelty 7.0

Neural networks admit large families of approximately equivalent solutions via neuron identifiability even without structural symmetry, enabling linear low-loss merging paths without prior alignment.

Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks

cond-mat.dis-nn · 2026-04-03 · unverdicted · novelty 6.0

In overparameterized quadratic networks, one-pass SGD escapes generalization plateaus only modestly faster and selects the initialization-closest zero-loss solution due to a conserved quantity in the overlap ODEs.

Scaling Linear Mode Connectivity and Merging to Billion Parameter Pretrained Transformers

cs.LG · 2026-06-22 · unverdicted · novelty 5.0

A bidirectional optimization method using parameterized transformations enables near-zero loss barriers for linear mode connectivity in medium-scale language models and small barriers in billion-parameter transformers.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks cond-mat.dis-nn · 2026-04-03 · unverdicted · none · ref 45
In overparameterized quadratic networks, one-pass SGD escapes generalization plateaus only modestly faster and selects the initialization-closest zero-loss solution due to a conserved quantity in the overlap ODEs.

Symmetry in neural network parameter spaces

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer