Preprint, arXiv:2402.06155

Model editing with canonical examples · 2023 · arXiv 2402.06155

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures

cs.CL · 2026-04-17 · unverdicted · novelty 4.0

This survey organizes intrinsic interpretability approaches for LLMs into five categories—functional transparency, concept alignment, representational decomposability, explicit modularization, and latent sparsity induction—while discussing challenges and future directions.

citing papers explorer

Showing 1 of 1 citing paper.

Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures cs.CL · 2026-04-17 · unverdicted · none · ref 3
This survey organizes intrinsic interpretability approaches for LLMs into five categories—functional transparency, concept alignment, representational decomposability, explicit modularization, and latent sparsity induction—while discussing challenges and future directions.

Preprint, arXiv:2402.06155

fields

years

verdicts

representative citing papers

citing papers explorer