Trgp: Trust region gradient projection for continual learning

Lin, S · 2022 · arXiv 2202.02931

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Invariant Reasoning Directions in Latent Trajectories of Language Models

cs.LG · 2026-06-28 · unverdicted · novelty 5.0

TILR identifies low-rank invariant subspaces from contrastive latent trajectory differences in LLMs and constrains interventions to them, improving paraphrase consistency by ~10% and reducing variance by up to 50%.

Fine-Tuning Without Forgetting via Loss-Adaptive Learning Rates

cs.LG · 2026-05-19 · unverdicted · novelty 5.0

FINCH is a loss-adaptive learning-rate schedule that reduces forgetting by 93% on average during LLM fine-tuning while matching standard task performance across several benchmarks.

A Faster Path to Continual Learning

cs.LG · 2026-04-13 · unverdicted · novelty 5.0

C-Flat Turbo accelerates continual learning by skipping redundant flatness gradients via direction-invariance observations and linear adaptive scheduling, delivering 1-1.25x speedup with comparable accuracy.

citing papers explorer

Showing 3 of 3 citing papers after filters.

Invariant Reasoning Directions in Latent Trajectories of Language Models cs.LG · 2026-06-28 · unverdicted · none · ref 6
TILR identifies low-rank invariant subspaces from contrastive latent trajectory differences in LLMs and constrains interventions to them, improving paraphrase consistency by ~10% and reducing variance by up to 50%.
Fine-Tuning Without Forgetting via Loss-Adaptive Learning Rates cs.LG · 2026-05-19 · unverdicted · none · ref 38
FINCH is a loss-adaptive learning-rate schedule that reduces forgetting by 93% on average during LLM fine-tuning while matching standard task performance across several benchmarks.
A Faster Path to Continual Learning cs.LG · 2026-04-13 · unverdicted · none · ref 34
C-Flat Turbo accelerates continual learning by skipping redundant flatness gradients via direction-invariance observations and linear adaptive scheduling, delivering 1-1.25x speedup with comparable accuracy.

Trgp: Trust region gradient projection for continual learning

fields

years

verdicts

representative citing papers

citing papers explorer