Unsupervised topic models are data mixers for pre-training language models

Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training , author= · 2025 · arXiv 2502.16802

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

HERMES: A Multi-Granularity Labeling Substrate for Pre-training Data Mixtures

cs.LG · 2026-07-02 · unverdicted · novelty 7.0

HERMES provides a reusable hierarchical labeling substrate for pre-training data that reveals granularity-specific effects in data mixing rules during model training.

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

cs.CL · 2026-03-25 · accept · novelty 4.0

A survey that taxonomizes data mixing strategies for LLM pretraining into static rule-based, learning-based, and dynamic adaptive families while highlighting transferability challenges and evaluation gaps.

citing papers explorer

Showing 2 of 2 citing papers.

HERMES: A Multi-Granularity Labeling Substrate for Pre-training Data Mixtures cs.LG · 2026-07-02 · unverdicted · none · ref 7
HERMES provides a reusable hierarchical labeling substrate for pre-training data that reveals granularity-specific effects in data mixing rules during model training.
Data Mixing for Large Language Models Pretraining: A Survey and Outlook cs.CL · 2026-03-25 · accept · none · ref 61
A survey that taxonomizes data mixing strategies for LLM pretraining into static rule-based, learning-based, and dynamic adaptive families while highlighting transferability challenges and evaluation gaps.

Unsupervised topic models are data mixers for pre-training language models

fields

years

verdicts

representative citing papers

citing papers explorer