Merging text transformer models from different initializations

Neha Verma, Maha Elbayad · 2024 · arXiv 2403.00986

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs

cs.CR · 2026-06-19 · unverdicted · novelty 7.0

Tiered Language Models use a secret key to induce an alternative computation graph over shared weights, enabling private capabilities in the keyed mode while the public mode shows none.

Scaling Linear Mode Connectivity and Merging to Billion Parameter Pretrained Transformers

cs.LG · 2026-06-22 · unverdicted · novelty 5.0

A bidirectional optimization method using parameterized transformations enables near-zero loss barriers for linear mode connectivity in medium-scale language models and small barriers in billion-parameter transformers.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs cs.CR · 2026-06-19 · unverdicted · none · ref 36
Tiered Language Models use a secret key to induce an alternative computation graph over shared weights, enabling private capabilities in the keyed mode while the public mode shows none.
Scaling Linear Mode Connectivity and Merging to Billion Parameter Pretrained Transformers cs.LG · 2026-06-22 · unverdicted · none · ref 33
A bidirectional optimization method using parameterized transformations enables near-zero loss barriers for linear mode connectivity in medium-scale language models and small barriers in billion-parameter transformers.

Merging text transformer models from different initializations

fields

years

verdicts

representative citing papers

citing papers explorer