Predictive concept decoders: Training scalable end-to-end interpretability assistants, 2025

Vincent Huang, Dami Choi, Daniel D Johnson, Sarah Schwettmann, Jacob Steinhardt · 2025 · arXiv 2512.15712

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Introspective Coupling: Self-Explanation Training Tracks Behavioral Change Despite Fixed Supervision

cs.CL · 2026-06-30 · unverdicted · novelty 6.0

Fixed counterfactual explanation datasets train LMs such that generated explanations track the model's evolving behavior rather than the fixed targets, due to persistent correlation during training.

Building Better Activation Oracles

cs.LG · 2026-05-23 · unverdicted · novelty 3.0

Four changes to Activation Oracle training yield marginal capability gains but better practical quality, plus an open-sourced evaluation suite AObench.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Building Better Activation Oracles cs.LG · 2026-05-23 · unverdicted · none · ref 36
Four changes to Activation Oracle training yield marginal capability gains but better practical quality, plus an open-sourced evaluation suite AObench.

Predictive concept decoders: Training scalable end-to-end interpretability assistants, 2025

fields

years

verdicts

representative citing papers

citing papers explorer