Language Models ``Grok'' to Copy

Lv, Ang, Xie, Ruobing, Sun, Xingwu, Kang, Zhanhui, Yan, Rui · 2025 · DOI 10.18653/v1/2025.naacl-short.61

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

cs.LG · 2026-05-29 · unverdicted · novelty 6.0

An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.

citing papers explorer

Showing 1 of 1 citing paper.

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization cs.LG · 2026-05-29 · unverdicted · none · ref 26
An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.

Language Models ``Grok'' to Copy

fields

years

verdicts

representative citing papers

citing papers explorer