Minghao Xu, Lichuan Xiang, Xu Cai, and Hongkai Wen

(Cited on page 5 · 2017 · arXiv 2412.11768

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

representative citing papers

Layerwise LQR for Geometry-Aware Optimization of Deep Networks

cs.LG · 2026-05-05 · unverdicted · novelty 7.0

Steepest descent under divergence-induced quadratic models equals an LQR problem, enabling learning of diagonal or Kronecker-factored inverse preconditioners via a global layerwise objective for scalable geometry-aware training.

Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

cs.LG · 2026-05-07 · unverdicted · novelty 6.0

MoLS scales Adam updates using module-level SNR estimates to correct gradient noise imbalance and improve LLM training convergence and generalization.

Memory-Efficient LLM Pretraining via Minimalist Optimizer Design

cs.LG · 2025-06-20 · conditional · novelty 6.0

SCALE matches Adam performance in LLM pretraining from 60M to 7B parameters by combining column-wise gradient normalization with last-layer-only momentum, using 35-45% of Adam's memory.

Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations

cs.LG · 2026-04-14 · unverdicted · novelty 3.0

A retrospective survey and empirical evaluation of deep learning optimization algorithms that identifies trends, design trade-offs, and future directions.

citing papers explorer

Showing 4 of 4 citing papers.

Layerwise LQR for Geometry-Aware Optimization of Deep Networks cs.LG · 2026-05-05 · unverdicted · none · ref 28
Steepest descent under divergence-induced quadratic models equals an LQR problem, enabling learning of diagonal or Kronecker-factored inverse preconditioners via a global layerwise objective for scalable geometry-aware training.
Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio cs.LG · 2026-05-07 · unverdicted · none · ref 39
MoLS scales Adam updates using module-level SNR estimates to correct gradient noise imbalance and improve LLM training convergence and generalization.
Memory-Efficient LLM Pretraining via Minimalist Optimizer Design cs.LG · 2025-06-20 · conditional · none · ref 15
SCALE matches Adam performance in LLM pretraining from 60M to 7B parameters by combining column-wise gradient normalization with last-layer-only momentum, using 35-45% of Adam's memory.
Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations cs.LG · 2026-04-14 · unverdicted · none · ref 32
A retrospective survey and empirical evaluation of deep learning optimization algorithms that identifies trends, design trade-offs, and future directions.

Minghao Xu, Lichuan Xiang, Xu Cai, and Hongkai Wen

fields

years

verdicts

representative citing papers

citing papers explorer