跨语言预训练模型 (Cross-Lingual Pre-trained Language Model) 总结与对比。
模型信息
模型名称 | 发表日期 | 语言数 | 模型结构 | 发表 | 引用 |
---|---|---|---|---|---|
XLM | 2019.01 | 15 | BERT | NIPS 2019 | 840 |
XNLG | 2019.09 | 15 | enc-dec | AAAI 2020 | 58 |
XLM-R | 2019.11 | 100 | BERT | ACL 2020 | 1209 |
mBART | 2020.01 | 25 | enc-dec | TACL 2020 | 355 |
X-STILTs | 2020.03 | 100 | BERT | AACL 2020 | 34 |
MARGE | 2020.06 | 26 | enc-dec | Arxiv 2020 | 69 |
INFO-XLM | 2020.07 | 100 | XLM-R-init | NAACL 2021 | 64 |
FILTER | 2020.09 | 100 | XLM-R-init | AAAI 2021 | 19 |
RemBERT | 2020.10 | 110 | BERT | Arxiv 2020 | 18 |
VECO | 2020.10 | 50 | BERT | ACL 2021 | 1 |
mT5 | 2020.10 | 101 | T5 | NAACL 2021 | 194 |
mT6 | 2021.04 | 101 | T5 | EMNLP 2021 | 11 |
XLM-E | 2021.06 | 100 | ELECTRA | Arxiv 2021 | 5 |
XGLM | 2021.12 | 30 | GPT-3 | Arxiv 2021 | - |
XLM
论文题目:Cross-lingual Language Model Pretraining
单位:Facebook AI Research
主要贡献
- 提出了CLM (由前面的词预测当前的词) 和TLM (输入为来自2个语言的平行句子,任务仍然是MLM) 2个新的预训练任务,其中后者需要双语平行数据。

其他
- 本文中使用的MLM跟原始BERT的MLM区别是选择任意连续的句子而非两个句子作为输入。
XNLG
论文题目:Cross-Lingual Natural Language Generation via Pre-Training
单位:Beijing Institute of Technology, Microsoft Corporation
主要贡献
- 提出2个新的预训练任务,训练跨语言的encoder-decoder框架。
预训练任务
MLM
:BERT任务;XMLM
:跟XLM中的TLM任务一样,输入为双语平行句子的MLM任务;Denoising Auto-Encoding (DAE)
:根据perturbed文本预测原始文本任务,预处理包括:1) shuffle词序,2) 0.1概率删除token,3) 0.1概率用[P]替换token;Cross-Lingual Auto-Encoding (XAE)
:实际上是MT任务。

其他
- 使用XLM初始化encoder和decoder。
XLM-R
论文题目:Unsupervised Cross-lingual Representation Learning at Scale
单位:Facebook AI Research
主要贡献
- 在XLM的基础上使用大规模无监督学习方法训练跨语言模型。
其他
- Tokenization:SentencePiece (Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing);
- 训练时只使用了MLM目标,且相对XLM来说去掉了language embedding。
mBART
论文题目:Multilingual Denoising Pre-training for Neural Machine Translation
单位:Facebook AI Research
主要贡献
- 使用来自多个语言的单语数据训练BART (BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension) 模型,用于NMT。

其他
- 模型结构:transformer结构,12层encoder和12层decoder,隐层维度为1024,attention head为16;
- 学习目标为每个语言单独的BART目标 (即DAE),其中noise function为:mask 35%的span (长度由$\lambda=3.5$的泊松分布决定),另外交换 (permute) 句子顺序;
- encoder输入中每个batch随机sample一种语言,选择尽可能多的连续句子,直到长度达到512或到文本边界,最后拼接上对应的language embedding;
- decoder输入中开始为目标语言的language embedding。
X-STILTs
论文题目:English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too
单位:New York University, University of Amsterdam, University of Colorado Boulder
主要贡献
- 在多语言情况下测试Intermediate-Task Training,使用了9种intermediate language-understanding任务。

其他
- 使用XLM-R作为模型初始化,分别测试了XLM-R+intermediate任务以及同时使用intermediate task和MLM任务。
MARGE
论文题目:Pre-training via Paraphrasing
单位:Facebook AI Research
主要贡献
- 提出一个基于跨语言paraphrasing的retrieval和reconstruction框架,目标为训练一个relevance model用于搜索目标文档 (target document) 的证据文档 (evidence document),同时训练一个seq2seq模型最大化根据证据文档生成目标文档的概率。

其他
- 本文中的relevance model和seq2seq model的训练是一个鸡和蛋的问题 (chicken-and-egg problem),二者互相依赖,实验证明在随机初始化情况下,该方法也能学到期望的信息;
- 在Reconstruction Model (也就是上述的seq2seq模型) 中,本文修改了普通的transformer里面decoder的attention,改为目标文档和多个证据文档之间的attention,同时用relevance model中生成的文档间的相似分数作为额外bias控制attention score。
INFO-XLM
论文题目:InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training
单位:Beijing Institute of Technology, Microsoft Corporation
主要贡献
- 提出一种基于信息论的思想用于解释此前的跨语言预训练模型中的MMLM和TLM训练任务是如何获取跨语言信息的;
- 提出一种新的跨cross-lingual contrast (XLCO) 任务,通过contrastive learning使模型学习从一系列负例中区分出文本真实的翻译。
其他
- 使用了Momentum Contrast (Momentum Contrast for Unsupervised Visual Representation Learning) 做对比学习;
- 训练中使用了base模型的第8层和large模型的第12层的[CLS]隐层用于contrastive learning;
- 使用XLM-R初始化模型;
- 问题:MoCo中会分别使用一个query encoder和一个key encoder对源语言句子和目标语言句子进行建模,但本文使用的仍然是XLM的BERT结构,按照上面的说法应该只有一个encoder。那么另一个encoder是从哪来的呢?
FILTER
论文题目:FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding
单位:Microsoft Dynamics 365 AI Research
主要贡献
- 提出一种基于XLM的fine-tuning方法,同时使用源语言和其在目标语言上的翻译 (由Microsoft Machine Translator生成) 作为输入,在XLM的底层和上层为源语言和目标语言使用不同参数,在中间层共享参数。

RemBERT
论文题目:Rethinking Embedding Coupling in Pre-trained Language Models
单位:Google Research
主要贡献
- 提出为input/output embedding使用不同的向量 (由于output embedding只在pre-train时使用,因此可以将这部分参数在fine-tuning时省下的空间增大encoder的维度和深度),同时通过重新规划模型参数的分配,提高跨语言模型性能。
其他
- 在传统的word2vec中,目标为用context预测中心词,context和中心词是用不同的embedding表示的,分别称为input/output embedding。Using the Output Embedding to Improve Language Models提出了为二者使用同一套embedding的思想,因为这样不仅可以降低训练时的perplexity,同时也能减少参数量,该思想在后续的LM工作中被沿用,包括BERT等预训练模型都是延续的这一思想;
- 本文反其道而行之,在预训练模型中测试将input/output embedding分开后的影响,由于output embedding只在预训练时使用,在fine-tuning时可以直接抛弃这部分参数,只使用input embedding,同时文中实验发现加大output embedding维度,减小input embedding维度不会对性能造成太大影响,因此可以通过加大output embedding维度,从而在fine-tuning阶段省下大量参数,而这些参数则可以用于增加encoder的隐层维度和深度;
- 本文通过上述方式训练了一个vocab size=250k,input embedding size=256,output embedding size=1535,32层,hidden size=1152 (18个attention head) 的mBERT模型,其预训练时参数为995M,fine-tuning时参数为575M,预训练时参数量和XLM-R (559M) 相近,但在XTREME任务上性能显著超过XLM-R (75.4 vs. 71.4);
- 问题:虽然RemBERT和XLM-R在fine-tuning时参数量一致,但在预训练时显然是RemBERT要大很多的,消耗的计算资源也更多,因此这里能不能算公平对比还有待商榷;
- 不过该方法作为一个压缩应用时模型大小的方法也很好。
VECO
论文题目:VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation
单位:Alibaba Group
主要贡献
- 提出一个额外的cross-attention模块,在每个transformer block里加入该模块可以显式地让隐层节点attend到另一个语言中的节点。

其他
- 根据文中说明,应该理解为在普通的BERT self-attention结构之外加了一个额外的cross-attention层,也就是说最后每个token获得的两个表示,其中H是用普通BERT的方法获得的,而S是在普通的BERT每层的基础上增加一个cross-attention层获得的;
- 根据文中公式,在cross-attention中计算query时使用的是上一层self-attention的输出,但计算key和value时使用的是最后一层的隐层状态;
- 针对上面这个问题,本文在更新时使用S预测mask的token的loss时,采用了stop-gradients operation (即将其中使用的最后一层输出H视为固定值),该方法可以加速收敛,同时避免在2L深的网络中进行反向传播,此外还能稳定deep post-layernorm Transformer的训练。
VECO的应用

mT5
论文题目:mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
单位:Google Research
主要贡献
- 13B参数量的多语言版本T5;
- 公布了包含101种语言的27T预训练语料mC4。
mT5和其他多语言预训练模型对比。
mT6
论文题目:mT6: Multilingual Pretrained Text-to-Text Transformer with Translation Pairs
单位:Beijing Institute of Technology, Microsoft Research
主要贡献
- 在mT5的基础上增加了双语平行数据,提出了
machine translation
,translation pair span corruption
和translation span corruption
三个需要平行数据的跨语言预训练任务。
预训练任务

XLM-E
论文题目:XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
单位:Microsoft Corporation
主要贡献
- 提出两个新的跨语言预训练任务Multilingual replaced token detection (MRTD) 和Translation replaced token detection (TRTD),实现了跨语言的ELECTRA;
- 模型在取得相近性能情况下预训练所需计算资源大大减少。
预训练任务

XGLM
论文题目:Few-shot Learning with Multilingual Language Models
单位:Meta AI
主要贡献
- 多语言GPT-3,模型参数规模达到7.5B,在超过20个few-shot learning任务上性能显著超过GPT-3。