Causal interpretation of self-attention in pre-trained transformers.Advances in Neural Information Processing Systems, 36:31450– 31465, 2023

Raanan Y Rohekar, Yaniv Gurwicz, Shami Nisimov · 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Transformer-like Inference from Optimal Control

cs.LG · 2026-05-15 · unverdicted · novelty 7.0

Derives transformer-like dual-filter inference layers from first-principles optimal control on nonlinear discrete and linear Gaussian sequence models.

citing papers explorer

Showing 1 of 1 citing paper.

Transformer-like Inference from Optimal Control cs.LG · 2026-05-15 · unverdicted · none · ref 13
Derives transformer-like dual-filter inference layers from first-principles optimal control on nonlinear discrete and linear Gaussian sequence models.

Causal interpretation of self-attention in pre-trained transformers.Advances in Neural Information Processing Systems, 36:31450– 31465, 2023

fields

years

verdicts

representative citing papers

citing papers explorer