Interpreting and steering llms with mutual information-based explanations on sparse autoencoders.arXiv preprint arXiv:2502.15576, 2025a

Xuansheng Wu, Jiayi Yuan, Wenlin Yao, Xiaoming Zhai, Ninghao Liu · 2025 · arXiv 2502.15576

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

SAERec: Constructing Fine-grained Interpretable Intents Priors via Sparse Autoencoders for Recommendation

cs.IR · 2026-06-17 · unverdicted · novelty 5.0

SAERec extracts fine-grained interpretable intents from LLM embeddings via sparse autoencoders and integrates them as priors into sequence recommendation using multi-branch attention, outperforming baselines on public datasets.

Steered Generation via Gradient-Based Optimization on Sparse Query Features

cs.LG · 2026-05-21 · unverdicted · novelty 5.0

Prototype-Based Sparse Steering decomposes query activations with SAEs and optimizes sparse features via gradients to steer LLM outputs toward specific behaviors.

citing papers explorer

Showing 2 of 2 citing papers after filters.

SAERec: Constructing Fine-grained Interpretable Intents Priors via Sparse Autoencoders for Recommendation cs.IR · 2026-06-17 · unverdicted · none · ref 54
SAERec extracts fine-grained interpretable intents from LLM embeddings via sparse autoencoders and integrates them as priors into sequence recommendation using multi-branch attention, outperforming baselines on public datasets.
Steered Generation via Gradient-Based Optimization on Sparse Query Features cs.LG · 2026-05-21 · unverdicted · none · ref 47
Prototype-Based Sparse Steering decomposes query activations with SAEs and optimizes sparse features via gradients to steer LLM outputs toward specific behaviors.

Interpreting and steering llms with mutual information-based explanations on sparse autoencoders.arXiv preprint arXiv:2502.15576, 2025a

fields

years

verdicts

representative citing papers

citing papers explorer