XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

Akiko Eriguchi; Alexandre Muzio; Arul Menezes; Dongdong Zhang; Furu Wei; Hany Hassan Awadalla; Haoyang Huang; Jian Yang; Li Dong; Saksham Singhal

arxiv: 2012.15547 · v1 · pith:2EQCR52Dnew · submitted 2020-12-31 · 💻 cs.CL

XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

Shuming Ma , Jian Yang , Haoyang Huang , Zewen Chi , Li Dong , Dongdong Zhang , Hany Hassan Awadalla , Alexandre Muzio

show 5 more authors

Akiko Eriguchi Saksham Singhal Xia Song Arul Menezes Furu Wei

This is my paper

classification 💻 cs.CL

keywords multilingualmachinetranslationxlm-tmodeltransformercross-linguallanguage

0 comments

read the original abstract

Multilingual machine translation enables a single model to translate between different languages. Most existing multilingual machine translation systems adopt a randomly initialized Transformer backbone. In this work, inspired by the recent success of language model pre-training, we present XLM-T, which initializes the model with an off-the-shelf pretrained cross-lingual Transformer encoder and fine-tunes it with multilingual parallel data. This simple method achieves significant improvements on a WMT dataset with 10 language pairs and the OPUS-100 corpus with 94 pairs. Surprisingly, the method is also effective even upon the strong baseline with back-translation. Moreover, extensive analysis of XLM-T on unsupervised syntactic parsing, word alignment, and multilingual classification explains its effectiveness for machine translation. The code will be at https://aka.ms/xlm-t.

This paper has not been read by Pith yet.

XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

discussion (0)