跨语言预训练模型总结

跨语言预训练模型 (Cross-Lingual Pre-trained Language Model) 总结与对比。

模型信息

模型名称 发表日期 语言数 模型结构 发表 引用
XLM 2019.01 15 BERT NIPS 2019 840
XNLG 2019.09 15 enc-dec AAAI 2020 58
XLM-R 2019.11 100 BERT ACL 2020 1209
mBART 2020.01 25 enc-dec TACL 2020 355
X-STILTs 2020.03 100 BERT AACL 2020 34
MARGE 2020.06 26 enc-dec Arxiv 2020 69
INFO-XLM 2020.07 100 XLM-R-init NAACL 2021 64
FILTER 2020.09 100 XLM-R-init AAAI 2021 19
RemBERT 2020.10 110 BERT Arxiv 2020 18
VECO 2020.10 50 BERT ACL 2021 1
mT5 2020.10 101 T5 NAACL 2021 194
mT6 2021.04 101 T5 EMNLP 2021 11
XLM-E 2021.06 100 ELECTRA Arxiv 2021 5
XGLM 2021.12 30 GPT-3 Arxiv 2021 -

XLM

论文题目:Cross-lingual Language Model Pretraining

单位:Facebook AI Research

主要贡献

  • 提出了CLM (由前面的词预测当前的词) 和TLM (输入为来自2个语言的平行句子,任务仍然是MLM) 2个新的预训练任务,其中后者需要双语平行数据。
xlm.png

其他

  • 本文中使用的MLM跟原始BERT的MLM区别是选择任意连续的句子而非两个句子作为输入。

XNLG

论文题目:Cross-Lingual Natural Language Generation via Pre-Training

单位:Beijing Institute of Technology, Microsoft Corporation

主要贡献

  • 提出2个新的预训练任务,训练跨语言的encoder-decoder框架。

预训练任务

  • MLM:BERT任务;
  • XMLM:跟XLM中的TLM任务一样,输入为双语平行句子的MLM任务;
  • Denoising Auto-Encoding (DAE):根据perturbed文本预测原始文本任务,预处理包括:1) shuffle词序,2) 0.1概率删除token,3) 0.1概率用[P]替换token;
  • Cross-Lingual Auto-Encoding (XAE):实际上是MT任务。
xnlg.png

其他

  • 使用XLM初始化encoder和decoder。

XLM-R

论文题目:Unsupervised Cross-lingual Representation Learning at Scale

单位:Facebook AI Research

主要贡献

  • 在XLM的基础上使用大规模无监督学习方法训练跨语言模型。

其他

mBART

论文题目:Multilingual Denoising Pre-training for Neural Machine Translation

单位:Facebook AI Research

主要贡献

mbart.png

其他

  • 模型结构:transformer结构,12层encoder和12层decoder,隐层维度为1024,attention head为16;
  • 学习目标为每个语言单独的BART目标 (即DAE),其中noise function为:mask 35%的span (长度由$\lambda=3.5$的泊松分布决定),另外交换 (permute) 句子顺序;
  • encoder输入中每个batch随机sample一种语言,选择尽可能多的连续句子,直到长度达到512或到文本边界,最后拼接上对应的language embedding;
  • decoder输入中开始为目标语言的language embedding。

X-STILTs

论文题目:English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too

单位:New York University, University of Amsterdam, University of Colorado Boulder

主要贡献

  • 在多语言情况下测试Intermediate-Task Training,使用了9种intermediate language-understanding任务。
x-stilts.png

其他

  • 使用XLM-R作为模型初始化,分别测试了XLM-R+intermediate任务以及同时使用intermediate task和MLM任务。

MARGE

论文题目:Pre-training via Paraphrasing

单位:Facebook AI Research

主要贡献

  • 提出一个基于跨语言paraphrasing的retrieval和reconstruction框架,目标为训练一个relevance model用于搜索目标文档 (target document) 的证据文档 (evidence document),同时训练一个seq2seq模型最大化根据证据文档生成目标文档的概率。
marge.png

其他

  • 本文中的relevance model和seq2seq model的训练是一个鸡和蛋的问题 (chicken-and-egg problem),二者互相依赖,实验证明在随机初始化情况下,该方法也能学到期望的信息;
  • 在Reconstruction Model (也就是上述的seq2seq模型) 中,本文修改了普通的transformer里面decoder的attention,改为目标文档和多个证据文档之间的attention,同时用relevance model中生成的文档间的相似分数作为额外bias控制attention score。

INFO-XLM

论文题目:InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

单位:Beijing Institute of Technology, Microsoft Corporation

主要贡献

  • 提出一种基于信息论的思想用于解释此前的跨语言预训练模型中的MMLM和TLM训练任务是如何获取跨语言信息的;
  • 提出一种新的跨cross-lingual contrast (XLCO) 任务,通过contrastive learning使模型学习从一系列负例中区分出文本真实的翻译。

其他

  • 使用了Momentum Contrast (Momentum Contrast for Unsupervised Visual Representation Learning) 做对比学习;
  • 训练中使用了base模型的第8层和large模型的第12层的[CLS]隐层用于contrastive learning;
  • 使用XLM-R初始化模型;
  • 问题:MoCo中会分别使用一个query encoder和一个key encoder对源语言句子和目标语言句子进行建模,但本文使用的仍然是XLM的BERT结构,按照上面的说法应该只有一个encoder。那么另一个encoder是从哪来的呢?

FILTER

论文题目:FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding

单位:Microsoft Dynamics 365 AI Research

主要贡献

  • 提出一种基于XLM的fine-tuning方法,同时使用源语言和其在目标语言上的翻译 (由Microsoft Machine Translator生成) 作为输入,在XLM的底层和上层为源语言和目标语言使用不同参数,在中间层共享参数。
filter.png

RemBERT

论文题目:Rethinking Embedding Coupling in Pre-trained Language Models

单位:Google Research

主要贡献

  • 提出为input/output embedding使用不同的向量 (由于output embedding只在pre-train时使用,因此可以将这部分参数在fine-tuning时省下的空间增大encoder的维度和深度),同时通过重新规划模型参数的分配,提高跨语言模型性能。

其他

  • 在传统的word2vec中,目标为用context预测中心词,context和中心词是用不同的embedding表示的,分别称为input/output embedding。Using the Output Embedding to Improve Language Models提出了为二者使用同一套embedding的思想,因为这样不仅可以降低训练时的perplexity,同时也能减少参数量,该思想在后续的LM工作中被沿用,包括BERT等预训练模型都是延续的这一思想;
  • 本文反其道而行之,在预训练模型中测试将input/output embedding分开后的影响,由于output embedding只在预训练时使用,在fine-tuning时可以直接抛弃这部分参数,只使用input embedding,同时文中实验发现加大output embedding维度,减小input embedding维度不会对性能造成太大影响,因此可以通过加大output embedding维度,从而在fine-tuning阶段省下大量参数,而这些参数则可以用于增加encoder的隐层维度和深度;
  • 本文通过上述方式训练了一个vocab size=250k,input embedding size=256,output embedding size=1535,32层,hidden size=1152 (18个attention head) 的mBERT模型,其预训练时参数为995M,fine-tuning时参数为575M,预训练时参数量和XLM-R (559M) 相近,但在XTREME任务上性能显著超过XLM-R (75.4 vs. 71.4);
  • 问题:虽然RemBERT和XLM-R在fine-tuning时参数量一致,但在预训练时显然是RemBERT要大很多的,消耗的计算资源也更多,因此这里能不能算公平对比还有待商榷
  • 不过该方法作为一个压缩应用时模型大小的方法也很好。

VECO

论文题目:VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation

单位:Alibaba Group

主要贡献

  • 提出一个额外的cross-attention模块,在每个transformer block里加入该模块可以显式地让隐层节点attend到另一个语言中的节点。
veco.png

其他

  • 根据文中说明,应该理解为在普通的BERT self-attention结构之外加了一个额外的cross-attention层,也就是说最后每个token获得的两个表示,其中H是用普通BERT的方法获得的,而S是在普通的BERT每层的基础上增加一个cross-attention层获得的;
  • 根据文中公式,在cross-attention中计算query时使用的是上一层self-attention的输出,但计算key和value时使用的是最后一层的隐层状态;
  • 针对上面这个问题,本文在更新时使用S预测mask的token的loss时,采用了stop-gradients operation (即将其中使用的最后一层输出H视为固定值),该方法可以加速收敛,同时避免在2L深的网络中进行反向传播,此外还能稳定deep post-layernorm Transformer的训练。

VECO的应用

veco-plug.png

mT5

论文题目:mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

单位:Google Research

主要贡献

  • 13B参数量的多语言版本T5;
  • 公布了包含101种语言的27T预训练语料mC4

mT5和其他多语言预训练模型对比。

mT6

论文题目:mT6: Multilingual Pretrained Text-to-Text Transformer with Translation Pairs

单位:Beijing Institute of Technology, Microsoft Research

主要贡献

  • 在mT5的基础上增加了双语平行数据,提出了machine translation, translation pair span corruptiontranslation span corruption三个需要平行数据的跨语言预训练任务。

预训练任务

mt6.png

XLM-E

论文题目:XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

单位:Microsoft Corporation

主要贡献

  • 提出两个新的跨语言预训练任务Multilingual replaced token detection (MRTD) 和Translation replaced token detection (TRTD),实现了跨语言的ELECTRA;
  • 模型在取得相近性能情况下预训练所需计算资源大大减少。

预训练任务

xlm-e.png

XGLM

论文题目:Few-shot Learning with Multilingual Language Models

单位:Meta AI

主要贡献

  • 多语言GPT-3,模型参数规模达到7.5B,在超过20个few-shot learning任务上性能显著超过GPT-3。