(tentatively) found 600+ monosemantic features in a small lm using sparse autoencoders.AI Alignment Forum

Logan Riggs · 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Aligned Training: A Parameter-Free Method to Improve Feature Quality and Stability of Sparse Autoencoders (SAE)

cs.LG · 2026-05-18 · unverdicted · novelty 6.0

Aligned training reparameterizes SAEs to enforce unit alignment between encoder and decoder directions, yielding Pareto gains on SAEBench while removing dead features and improving stability.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Aligned Training: A Parameter-Free Method to Improve Feature Quality and Stability of Sparse Autoencoders (SAE) cs.LG · 2026-05-18 · unverdicted · none · ref 26
Aligned training reparameterizes SAEs to enforce unit alignment between encoder and decoder directions, yielding Pareto gains on SAEBench while removing dead features and improving stability.

(tentatively) found 600+ monosemantic features in a small lm using sparse autoencoders.AI Alignment Forum

fields

years

verdicts

representative citing papers

citing papers explorer