TANDEM: Bi-Level Data Mixture Optimization with Twin Networks

Deping Xiang; Guoqiang Gong; Haoran Li; Jiaxing Wang; Jin Xu; Ju Fan; Ke Zhang; Mingyang Yi; Pengzhang Liu; Qixiang Jiang

arxiv: 2606.04401 · v1 · pith:AXJ3PHEMnew · submitted 2026-06-03 · 💻 cs.LG

TANDEM: Bi-Level Data Mixture Optimization with Twin Networks

Jiaxing Wang , Deping Xiang , Jin Xu , Mingyang Yi , Guoqiang Gong , Zicheng Zhang , Haoran Li , Pengzhang Liu

show 4 more authors

Zhen Chen Ke Zhang Ju Fan Qixiang Jiang

This is my paper

classification 💻 cs.LG

keywords databi-levelmixturetandemtwinnetworksoptimizationadditional

0 comments

read the original abstract

The capabilities of large language models (LLMs) significantly depend on training data drawn from various domains. Optimizing domain-specific mixture ratios can be modeled as a bi-level optimization problem, which we simplify into a single-level penalized form and solve with twin networks: a proxy model trained on primary data and a dynamically updated reference model trained with additional data. Our proposed method, Twin Networks for bi-level DatA mixturE optiMization (TANDEM), measures the data efficacy through the difference between the twin models and up-weights domains that benefit more from the additional data. TANDEM provides theoretical guarantees and wider applicability, compared to prior approaches. Furthermore, our bi-level perspective suggests new settings to study domain reweighting such as data-restricted scenarios and supervised fine-tuning, where optimized mixture ratios significantly improve the performance. Extensive experiments validate TANDEM's effectiveness in all scenarios.

This paper has not been read by Pith yet.

TANDEM: Bi-Level Data Mixture Optimization with Twin Networks

discussion (0)