Evaluating sparse autoencoders on targeted concept erasure tasks, 2024

Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda · 2024 · arXiv 2411.18895

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Aligned Training: A Parameter-Free Method to Improve Feature Quality and Stability of Sparse Autoencoders (SAE)

cs.LG · 2026-05-18 · unverdicted · novelty 7.0

Aligned training reparameterizes SAEs to enforce unit inner product between encoder and decoder directions, eliminating dead features and enhancing stability without hyperparameters.

citing papers explorer

Showing 1 of 1 citing paper.

Aligned Training: A Parameter-Free Method to Improve Feature Quality and Stability of Sparse Autoencoders (SAE) cs.LG · 2026-05-18 · unverdicted · none · ref 17
Aligned training reparameterizes SAEs to enforce unit inner product between encoder and decoder directions, eliminating dead features and enhancing stability without hyperparameters.

Evaluating sparse autoencoders on targeted concept erasure tasks, 2024

fields

years

verdicts

representative citing papers

citing papers explorer