Online learning and online convex optimization.Foundations and Trends in Machine Learning, 4(2):107–194

Shai Shalev-Shwartz · 2012

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback

cs.LG · 2026-05-12 · unverdicted · novelty 7.0

IGT-OMD reduces gradient transport error from quadratic to linear in delay length for delayed bilevel optimization and achieves sublinear regret with adaptive steps.

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

cs.LG · 2026-04-21 · unverdicted · novelty 7.0 · 2 refs

Expert upcycling duplicates experts in an existing MoE checkpoint and continues pre-training to match fixed-size baseline performance with 32% less compute.

An Efficient Algorithm for Minimizing Ordered Norms in Fractional Load Balancing

cs.DS · 2025-11-14 · conditional · novelty 6.0

A randomized (1+ε)-approximation algorithm for ordered-norm load balancing uses O((n+d)(ε^{-2} + log log d) log(n+d)) linear-oracle calls via follow-the-regularized-leader prices and martingale progress analysis.

citing papers explorer

Showing 3 of 3 citing papers.

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback cs.LG · 2026-05-12 · unverdicted · none · ref 5
IGT-OMD reduces gradient transport error from quadratic to linear in delay length for delayed bilevel optimization and achieves sublinear regret with adaptive steps.
Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts cs.LG · 2026-04-21 · unverdicted · none · ref 46 · 2 links
Expert upcycling duplicates experts in an existing MoE checkpoint and continues pre-training to match fixed-size baseline performance with 32% less compute.
An Efficient Algorithm for Minimizing Ordered Norms in Fractional Load Balancing cs.DS · 2025-11-14 · conditional · none · ref 70
A randomized (1+ε)-approximation algorithm for ordered-norm load balancing uses O((n+d)(ε^{-2} + log log d) log(n+d)) linear-oracle calls via follow-the-regularized-leader prices and martingale progress analysis.

Online learning and online convex optimization.Foundations and Trends in Machine Learning, 4(2):107–194

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer