Sophia: A scalable stochastic second-order optimizer for language model pre-training

13 Hong Liu, Zhiyuan Li, David Leo Wright Hall, Percy Liang, Tengyu Ma · 2025 · arXiv 2503.15804

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations

cs.LG · 2026-04-14 · unverdicted · novelty 3.0

A retrospective survey and empirical evaluation of deep learning optimization algorithms that identifies trends, design trade-offs, and future directions.

citing papers explorer

Showing 1 of 1 citing paper.

Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations cs.LG · 2026-04-14 · unverdicted · none · ref 14
A retrospective survey and empirical evaluation of deep learning optimization algorithms that identifies trends, design trade-offs, and future directions.

Sophia: A scalable stochastic second-order optimizer for language model pre-training

fields

years

verdicts

representative citing papers

citing papers explorer