Opt." refers to optimizer state memory, while

Philosophical Library · 2048

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

cs.LG · 2026-04-09 · unverdicted · novelty 6.0

SAGE replaces AdamW in memory-efficient LLM hybrids with a Lion-style sign update plus a provably bounded O(d) adaptive scale, delivering SOTA perplexity on Llama-1.3B while cutting optimizer-state memory.

citing papers explorer

Showing 1 of 1 citing paper.

SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization cs.LG · 2026-04-09 · unverdicted · none · ref 3
SAGE replaces AdamW in memory-efficient LLM hybrids with a Lion-style sign update plus a provably bounded O(d) adaptive scale, delivering SOTA perplexity on Llama-1.3B while cutting optimizer-state memory.

Opt." refers to optimizer state memory, while

fields

years

verdicts

representative citing papers

citing papers explorer