interpreting GPT : the logit lens

nostalgebraist · 2020

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models

cs.CL · 2026-04-13 · unverdicted · novelty 5.0

Non-closing truth recursion prompts destabilize LLM attention matrices with large effect sizes, unlike grounded self-reference or factual controls, and increase contradictory model outputs.

citing papers explorer

Showing 1 of 1 citing paper.

When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models cs.CL · 2026-04-13 · unverdicted · none · ref 11
Non-closing truth recursion prompts destabilize LLM attention matrices with large effect sizes, unlike grounded self-reference or factual controls, and increase contradictory model outputs.

interpreting GPT : the logit lens

fields

years

verdicts

representative citing papers

citing papers explorer