Grokking of Hierarchical Structure in Vanilla Transformers

Murty, Shikhar, Sharma, Pratyusha, Andreas, Jacob, Manning, Christopher · 2023 · DOI 10.18653/v1/2023.acl-short.38

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining

cs.LG · 2026-06-24 · unverdicted · novelty 7.0

During pretraining, language models exhibit natural ungrokking where learned rules are forgotten based on their support frequency in the corpus, with asymmetric editability of rule survival.

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

cs.LG · 2026-05-29 · unverdicted · novelty 6.0

An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining cs.LG · 2026-06-24 · unverdicted · none · ref 28
During pretraining, language models exhibit natural ungrokking where learned rules are forgotten based on their support frequency in the corpus, with asymmetric editability of rule survival.
A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization cs.LG · 2026-05-29 · unverdicted · none · ref 16
An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.

Grokking of Hierarchical Structure in Vanilla Transformers

fields

years

verdicts

representative citing papers

citing papers explorer