MoLAE: Mixture of latent experts for parameter-efficient language models

· 2025 · arXiv 2503.23100

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

cs.LG · 2026-06-01 · unverdicted · novelty 3.0

Riemannian optimization on low-rank attention parameters yields no conclusive improvement over AdamW after hyperparameter tuning.

Showing 1 of 1 citing paper.

Riemannian Gradient Descent for Low-Rank Architectures cs.LG · 2026-06-01 · unverdicted · none · ref 24
Riemannian optimization on low-rank attention parameters yields no conclusive improvement over AdamW after hyperparameter tuning.