Spectralgradientdescentmitigatesanisotropy-driven misalignment: A case study in phase retrieval.arXiv preprint arXiv:2601.22652, 2026

· 2026 · arXiv 2601.22652

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Muon learns balanced solutions in matrix factorization without slow saddle-to-saddle dynamics

cs.LG · 2026-06-29 · unverdicted · novelty 6.0

Muon in matrix factorization avoids saddle-to-saddle dynamics, learns top modes simultaneously, conserves sqrt(P^TP) - sqrt(Q^TQ), and reaches balanced solutions from small initialization with a two-step alignment schedule.

Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering

cs.LG · 2026-06-02 · unverdicted · novelty 6.0

Momentum in Muon functions as a spectral filter on signal-plus-perturbation gradients, enlarging the gap to stabilize singular subspaces before orthogonalization and outperforming the reverse order.

Convergence of Spectral Descent for Non-smooth Optimization

cs.LG · 2026-05-26 · unverdicted · novelty 5.0

Proves linear convergence of Spectral Descent (SD) and Truncated SD for non-smooth convex problems under stated conditions, sublinear rates for regularized versions via Frank-Wolfe, and recovery guarantees for robust low-rank matrix recovery.

citing papers explorer

Showing 3 of 3 citing papers after filters.

Muon learns balanced solutions in matrix factorization without slow saddle-to-saddle dynamics cs.LG · 2026-06-29 · unverdicted · none · ref 26
Muon in matrix factorization avoids saddle-to-saddle dynamics, learns top modes simultaneously, conserves sqrt(P^TP) - sqrt(Q^TQ), and reaches balanced solutions from small initialization with a two-step alignment schedule.
Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering cs.LG · 2026-06-02 · unverdicted · none · ref 5
Momentum in Muon functions as a spectral filter on signal-plus-perturbation gradients, enlarging the gap to stabilize singular subspaces before orthogonalization and outperforming the reverse order.
Convergence of Spectral Descent for Non-smooth Optimization cs.LG · 2026-05-26 · unverdicted · none · ref 5
Proves linear convergence of Spectral Descent (SD) and Truncated SD for non-smooth convex problems under stated conditions, sublinear rates for regularized versions via Frank-Wolfe, and recovery guarantees for robust low-rank matrix recovery.

Spectralgradientdescentmitigatesanisotropy-driven misalignment: A case study in phase retrieval.arXiv preprint arXiv:2601.22652, 2026

fields

years

verdicts

representative citing papers

citing papers explorer