arXiv preprint arXiv:2312.05705 , year=

Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC , author= · arXiv 2312.05705

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss

cs.LG · 2026-06-04 · unverdicted · novelty 6.0

Double preconditioning (DoPr) improves downstream task performance in test-time feedback settings without consistent gains in validation loss.

Gradient Smoothing: Coupling Layer-wise Updates for Improved Optimization

cs.LG · 2026-06-29 · unverdicted · novelty 4.0

Gradient Smoothing applies depth-wise smoothing to optimizer updates from base methods like Adam, yielding consistent gains in optimization and generalization on language, RL, diffusion, and vision tasks.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss cs.LG · 2026-06-04 · unverdicted · none · ref 83
Double preconditioning (DoPr) improves downstream task performance in test-time feedback settings without consistent gains in validation loss.
Gradient Smoothing: Coupling Layer-wise Updates for Improved Optimization cs.LG · 2026-06-29 · unverdicted · none · ref 19
Gradient Smoothing applies depth-wise smoothing to optimizer updates from base methods like Adam, yielding consistent gains in optimization and generalization on language, RL, diffusion, and vision tasks.

arXiv preprint arXiv:2312.05705 , year=

fields

years

verdicts

representative citing papers

citing papers explorer