The shape of learning: Anisotropy and intrinsic dimensions in transformer-based models

Razzhigaev, Anton, Mikhalchuk, Matvey, Goncharova, Elizaveta, Oseledets, Ivan, Dimitrov, Denis, Kuznetsov, Andrey · 2024 · DOI 10.18653/v1/2024.findings-eacl.58

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization

cs.LG · 2026-05-29 · unverdicted · novelty 6.0

An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.

TextTeacher: What Can Language Teach About Images?

cs.CV · 2026-05-21 · unverdicted · novelty 6.0

TextTeacher uses frozen text embeddings from captions as semantic anchors to guide vision model training, improving ImageNet accuracy by up to 2.7 p.p. and transfer performance by 1.0 p.p. on average.

citing papers explorer

Showing 2 of 2 citing papers after filters.

A Pre-Training Analogue of Grokking in Language Models: Tracing Delayed Grammatical Generalization cs.LG · 2026-05-29 · unverdicted · none · ref 20
An exposure-based split on BLiMP data reveals delayed generalization in five grammatical phenomena during LLM pre-training, with post-generalization shifts in concept vector predictiveness and attention patterns.
TextTeacher: What Can Language Teach About Images? cs.CV · 2026-05-21 · unverdicted · none · ref 54
TextTeacher uses frozen text embeddings from captions as semantic anchors to guide vision model training, improving ImageNet accuracy by up to 2.7 p.p. and transfer performance by 1.0 p.p. on average.

The shape of learning: Anisotropy and intrinsic dimensions in transformer-based models

fields

years

verdicts

representative citing papers

citing papers explorer