知识增强预训练模型 (Knowledge Enhanced Pre-trained Language Model) 总结与对比。
模型信息
模型结构后面带了init表示使用预训练好的该模型的参数进行初始化,scratch表示从头开始训练,fix表示固定预训练模型参数。
模型名称 | 发表日期 | 语言 | 模型结构 | 发表 | 引用 |
---|---|---|---|---|---|
ERNIE | 2019.03 | EN | BERT-init | ACL 2019 | 525 |
ERNIE 1.0 | 2019.04 | EN,ZH | BERT | Arxiv 2019 | 354 |
ERNIE 2.0 | 2019.07 | EN,ZH | BERT | AAAI 2020 | 287 |
SenseBERT | 2019.08 | EN | BERT-scratch | ACL 2020 | 92 |
KnowBert | 2019.09 | EN | BERT-init | EMNLP 2019 | 284 |
LIBERT | 2019.09 | EN | BERT-scratch | Arxiv 2019 | 19 |
K-BERT | 2019.09 | ZH | BERT-scratch | AAAI 2020 | 219 |
KEPLER | 2019.11 | EN | RoBERTa-init | TACL 2021 | 100 |
BERT-MK | 2019.11 | EN | BERT | EMNLP F. 2020 | 29 |
E-BERT | 2019.11 | EN | BERT-init | EMNLP F. 2020 | 43 |
WKLM | 2019.12 | EN | BERT-init | ICLR 2020 | 60 |
K-Adapter | 2020.10 | EN | RoBERTa-fix | ACL F. 2021 | 105 |
CoLAKE | 2020.10 | EN | RoBERTa-init | COLING 2020 | 28 |
CALM | 2020.02 | EN | T5-init | ICLR 2021 | 10 |
ERNIE-M | 2020.12 | 96 lans | XLM-R-init | EMNLP 2021 | 11 |
ERNIE 3.0 | 2021.07 | EN,ZH | MLM+enc-dec | Arxiv 2021 | 15 |
KMLM | 2021.11 | 10 lans | XLM-R-init | Arxiv 2021 | - |
ERNIE
论文题目:ERNIE: Enhanced Language Representation with Informative Entities
单位:Tsinghua University, Huawei Noah’s Ark Lab
主要贡献
- 使用K-Encoder将使用TransE算法 (Translating Embeddings for Modeling Multi-relational Data) 生成的entity embedding作为额外输入;
- 提出了新的
denoising auto-encoder (dEA)
预训练任务,将entity和输入文本中的alignment随机遮盖,重新预测对齐关系。

预训练任务
- dEA
- MLM
- NSP
其他
- dEA预训练任务:(1) 5%情况下将和token对齐的entity替换为另一个随机entity; (2) 15%情况下遮盖token和entity的对齐; (3) 其他情况下保持对齐不变;
- 使用英文Wikipedia作为预训练数据,并将其与Wikidata对齐;
- 在预训练之前,使用TransE算法在Wikidata上训练entity embedding (使用部分wikidata,包括5,040,986个entity和24,267,796个三元组),该embedding在训练ERNIE过程中是固定的;
- 在使用ERNIE模型前先识别文本中的named entity mention,然后将其与知识图谱中的entity对齐。 (这里对齐的作用是使用TransE在KG上训练的entity embedding作为额外输入)
补充
ERNIE 1.0
论文题目:ERNIE: Enhanced Representation through Knowledge Integration (有两篇叫ERNIE的文章,后面把百度这篇称为ERNIE 1.0)
单位:Baidu Inc.
主要贡献
- 提出了entity masking和phrase masking预训练任务,强化这类外部知识。

这个点比较小,其他都跟BERT一样,因此一直没发表。
ERNIE 2.0
论文题目:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
单位:Baidu Inc.
主要贡献
Continual Pre-training Framework
:逐渐增加预训练任务个数,每次增加新的预训练任务时使用上次训练的模型初始化参数,然后将新任务和之前的任务共同训练,从而避免灾难性遗忘;- 提出3类共7种预训练任务,证明上述框架的有效性。

预训练任务
Word-aware Pre-training Tasks:
Knowledge Masking Task
:ERNIE 1.0中提出的phrase masking和named entity masking任务;Capitalization Prediction Task
:为了结合cased和uncased两种模型的优点,使用该任务预测一个词是否应为大写;Token-Document Relation Prediction Task
:预测一个词是否出现在相同文档的其他段落中,该任务能增强模型捕获文档中心词 (key word) 的能力;
Structure-aware Pre-training Tasks:
Sentence Reordering Task
:一个文档被切分为多个段落并打乱顺序,该任务要求模型通过多分类 (从所有可能的排列中选一个) 预测原本顺序;Sentence Distance Task
:NSP任务的扩展,输入两个句子进行3分类:(1) 相邻;(2) 不相邻但来自同一文档;(3) 来自不同文档;
Semantic-aware Pre-training Tasks:
Discourse Relation Task
:通过外部数据构建预测两个句子之间语义关系的任务;IR Relevance Task
:通过搜索引擎构建的任务,输入由query和title两个句子拼接,目标为3分类:(1) 强相关 (用户搜索query后点击了title);(2) 弱相关 (用户搜索query后引擎返回了title但未点击);(3) 无关。
上述预训练任务由多个不同的数据集构建而成,一个数据集可能对应多个预训练任务,具体对应信息如下:

Continual Multi-task Learning:
CMTL与传统的Continual Learning和MTL对比如下,具体来说在CMTL中每个任务固定能更新50k个step,然后根据任务的多少将这些step分布到不同的训练阶段。每个任务第一次出现时更新次数最多,此后更新次数较少。

两个问题
- 虽然本文说该方法的一个优点是不需要提前准备好所有的预训练任务,但是从表中策略来看,每个预训练任务的step分配应该也需要知道总共的预训练任务个数。(可能在实际应用中每个任务第一次出现更新一个固定的比较多的step数,例如50k;后面训练时更新一个固定的较少的step数,例如10k)
- 在多个任务同时存在的训练阶段是同时计算每个任务loss一起更新还是每个batch单独训练不同的任务?(文中没有找到明确的说明,但考虑到不同任务可能不是在同样的文本上构建的,应该是后者)
SenseBERT
论文题目:SenseBERT: Driving Some Sense into BERT
单位:AI21
主要贡献
- 提出了supersense预测任务,在预测mask的token的同时也预测该token从WordNet中定义的allowed supersense (优化目标为最小化当前被mask的token的每个可能的supersense,并使它们之间的概率分布尽量平均,这两个目标分别使用一个损失函数,然后把这两个损失函数相加);
- 在计算BERT输入的时候使用额外的supersense embedding matrix,然后使用WordNet中定义的每个token的allowed supersense构建对应的0-1 matrix将supersense embedding投射到对应词。

其他
统计allowed supersense时,有以下三种不计算,认为允许集合为空:
- 少于3个字母的词;
- 停用词;
- 表示部分词的token (即被BERT切分了的word piece,本文中有实验用于处理这种情况,例如将BERT原始30K词表扩大到60K等)。
KnowBERT
论文题目:Knowledge Enhanced Contextual Word Representations
单位:AI2, University of California, University of Washington
主要贡献
- 提出Knowledge Attention and Recontextualization component (KAR),将知识库 (knowledge base) 融合到预训练模型中。
模型结构
Mention-Span Representation
:利用现有的KB entity selector从输入文本中识别若干候选mention。BERT上一层的表示首先通过一个线性层投射到一个较小的维度 (图中第1步)。然后候选mention所在的span中的表示通过self-attentive span pooling的方式转化为C个mention-span的表示向量$S$ (图中第2步)。Entity Linker
:mention-span通过一个transformer block获取其它mention信息,从而变为$S^e$ (图中第3步);使用$S^{e}$ 和mention-span的候选entity的向量以及KB中定义的先验概率计算每个entity linking (即mention-span和entity对应关系) 的分数,之后过滤掉分数低于某一阈值的entity,并将剩余的entity embedding按分数加权平均作为对应的entity embedding (图中第4步):Knowledge Enhanced Entity-Span Representation
:将上一步获取的weighted entity embedding加上此前的mention-span representation作为entity-span representation (图中第5步)。Recontextualization
:在降维和BERT表示和上一步获得的entity-span representation之间使用word-to-entity-span attention (即transformer block把self-attention改成这两个表示之间的attention) (图中第6步)。最后通过线性层升维到BERT的隐层大小 (图中第7步),作为BERT下一层的输入。

其他
- 预训练过程中如果有外部数据能提供entity linking的监督信号,则通过log-likelihood和max-margin计算其loss并与BERT原始loss相加一起使用;
- 应用时可以在BERT的不同层插入不同来源的KB,本文尝试了分别使用Wikipedia和WordNet以及同时使用二者;
- 训练BERT之前先使用现有方法在KB基础上训练entity embedding,之后训练中固定该embedding。
LIBERT
论文题目:Informing Unsupervised Pretraining with External Linguistic Knowledge
单位:University of Mannheim, University of Cambridge
主要贡献
- 提出了一个预训练任务,首先收集近义词对 (synonyms) 和上下文关系词对 (hyponym-hypernym),然后将每个词对的两个词拼接,中间加上[SEP]标记作为正例,然后根据每个batch中的词向量距离挑选距离最近的词替换词对中的一个作为负例,训练目标为2分类,即二者是否是正例。
K-BERT
论文题目:K-BERT: Enabling Language Representation with Knowledge Graph
单位:Peking University, Tencent Research, Beijing Normal University
主要贡献
- 提出了一种在fine-tuning阶段将KG融入BERT的方法,通过soft position和visible matrix缓解了知识过多导致的knowledge noise问题。
模型结构
Knowledge Layer
:可以视为预处理阶段,首先识别输入文本中的entity,然后从KG中搜索每个entity对应的三元组,将其以分支的形式插入句子中,形成一个sentence tree (注意这里树的深度最大为1,也就是说不会迭代地搜索三元组);Token Embedding
:将sentence tree中的每个token按照hard position顺序压缩成序列,然后根据BERT的embedding matrix转化成对应embedding (这里注意的是来自KG中的entity的embedding也是用BERT embedding表示的,文中说这是为了解决此前方法中普通token向量和entity向量不一致的问题);Soft-position Embedding
:首先将原句中的token按照顺序标上位置向量,然后每个分支的位置向量由该分支的 (在原句中的) head的位置id开始增加,该embedding作为BERT输入中的位置向量输入;Visible Matrix
:为了避免插入的知识影响其他不相关的token,在计算attention时使用visible matrix只允许每个token看到自己相关分支的表示向量。

其他
- 虽然该方法是直接应用到已经预训练完的模型的fine-tuning阶段的,但在本文的实验中其BERT模型仍然是从头开始预训练的,其预训练setting与BERT原文相同。
KEPLER
论文题目:KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation
单位:BNRist, Tsinghua University, Princeton University, Mila-Québec AI Institute, Univesité de Montréal
主要贡献
- 提出了Knowledge Embedding任务,与MLM任务同时学习,将来自KG的知识融入预训练模型;
- 公布了来自Wikidata的Knowledge graph dataset,Wikidata5M;
- 相比此前方法,该方法在fine-tuning和inference阶段不引入额外参数和计算。
Knowledge Embedding
本文在预训练时使用的框架如下图所示,传统KE学习算法都使用固定的embedding表示entity和relation,本文主要思想是使用BERT encode他们对应的说明文本作为其表示。
具体来说,首先提出了3种方法获取表示:
- 使用BERT获取head和tail的表示,relation仍然使用固定向量;
- 使用BERT获取head、tail和relation的表示;
- 使用BERT获取head和tail的表示,在计算relation表示时,拼接head和relation的说明文本作为输入。
然后使用了RotatE: Knowledge Graph Embedding by Relational Rotation in Complex中提出的max-margin loss作为KE任务的学习目标 (其中使用了负采样方法)。损失函数中的scoring function采用了TransE中定义的损失函数$||h+r-t||_p$。(学习目标似乎是让正确的head向量+relation向量与tail向量间的距离尽量近,而错误的尽量远。)

BERT-MK
论文题目:BERT-MK: Integrating Graph Contextualized Knowledge into Pre-trained Language Models
单位:Huawei Noah’s Ark Lab, Huawei Cloud & AI, University of Science and Technology of China
主要贡献
- 在ERNIE (Tsinghua) 的基础上将其输入的由TransE训练的固定entity embedding替换为由医学知识抽取的subgraph计算的contextualized knowledge。(主要解决的问题是TransE无法处理一对多、多对一和多对多等复杂的关系,这种关系在医学知识图谱中是非常多的。)

预处理阶段
- 原始KG见图中 (a) 部分,包括4个1跳关系,首先将relation也变成节点,即图中 (b) 部分;
- 然后按照顺序将entity和relation的节点按顺序排列 (node sequence);
- 获取node position index,其中三个index分别表示head、relation和tail在节点序列中的位置;
- 获取邻接矩阵,节点图 (b) 中直接相邻的点之间为1,其他为0 (只统计有向关系)。

Graph Contextualized Knowledge Embedding (GCKE) 模块
- 结构图右边为GCKE模块,首先输入的是预处理阶段的node sequence (以及对应的邻接矩阵)
- 之后利用node position index获取每个三元组的head、relation和tail节点的表示向量,然后将最小化margin-based loss作为学习目标 (与KEPLER中的loss类似,负例通过将head或tail随机替换为不在KG中的entity生成)。
其他
- 这里GCKE模块是用于替换ERNIE里的TransE算法,论文中的实验对比也是对比的同样的框架下使用这两种entity embedding计算方法;
- 在具体实现中使用了TransE算法获得的embedding对GCKE中的embedding进行初始化。
E-BERT
论文题目:E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT
单位:LMU Munich, Siemens AG Munich
主要贡献
- 通过Wikipedia2Vec (Joint learning of the embedding
of words and entities for named entity disambiguation)训练entity embedding,并将其与BERT的wordpiece embedding对齐,从而将对齐后的entity embedding视为BERT的原始embedding直接使用 (本文主要解决的是知识增强模型中普通token embedding和entity embedding不一致的问题,和K-BERT解决的第二个问题相同);

其他
- 本文的目标是将entity embedding投射到BERT wordpiece embedding的空间,但由于二者没有交集,因此首先学习一个由Wikipedia2Vec生成的word embedding到BERT wordpiece embedding的线性变换矩阵W。因为Wikipedia2Vec生成的word embedding和entity embedding是在同一空间中的,该变换矩阵W也可以直接应用在entity embedding上从而将其映射到BERT wordpiece embedding的空间中;
- 应用到下游任务时,将BERT wordpiece embedding和变换过的entity embedding固定,fine-tune其他的参数。
WKLM
论文题目:Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
单位:University of California Santa Barbara, Facebook AI
主要贡献
- 提出一种新的预训练任务,将原始文本中的entity mention随机替换为同类的其他entity,然后训练模型分辨文本中表示的知识是否正确。

相对于ERNIE和KnowBERT的优点
- WKLM能从非结构化文本中直接获取真实世界的知识;
- WKLM不需要额外的数据处理,在fine-tune时不用对BERT模型做任何改变。
其他
- 预训练时同时使用MLM任务 (以Multi-task Learning方式);
- 在Entity Typing任务上和ERNIE进行了对比,但没有和KnowBERT对比。
K-Adapter
论文题目:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
单位:Fudan University, Microsoft
主要贡献
- fix RoBERTa参数,用multi-task learning方式训练多种任务,每种任务对应一组adapter,预测时拼接多个adapter的表示。

预训练任务
Factual Adapter
:从T-REx数据集 (Wikipedia摘要和Wikidata里的三元组的对齐数据集) 中抽取出所有出现超过50次的三元组 (包括430个关系和5.5M的句子),在该数据集上训练关系分类任务 (relation classification,拼接两个entity的表示进行分类)。Linguistic Adapter
:使用Stanford Parser自动生成1M句子的句法树,在该数据集上训练依存关系预测任务,即为每个token预测其在句法依存树上的父节点。
以下为K-Adapter和此前方法的对比:

CoLAKE
论文题目:CoLAKE: Contextualized Language and Knowledge Embedding
单位:Fudan University, Amazon Shanghai AI Lab
主要贡献
- 通过构建Word-Knowledge graph (WK graph)获取文本中的entity及其相关的entity组成的子图,利用transformer encode该子图,从而将真正的contextualized konwledge融入模型中。

WK Graph构造
- 将输入文本tokenize成token序列,表示为全连接图,识别其中的entity mention;
- 用entity linker将这些mention与KG中的entity连接,并用entity替换这些mention token,称为
anchor nodes
; - 从KG中搜索这些
anchor node
的相邻entity (或称为knowledge context),将这些三元组和原来的全连接图组合成为WK graph。
模型结构
上述的WK graph使用方法如下图所示,作为transformer输入:
- 使用type embedding区分原始文本中的token,KG中的entity和relation;
- 训练任务是对MLM的改进,分别包括mask word/entity/relation三种节点。

CoLAKE跟此前semi-contextualized joint model
(ERNIE, KnowBERT) 对比:

CoLAKE跟其他知识增强模型对比:

CALM
论文题目:Pre-training Text-to-Text Transformers for Concept-centric Common Sense
单位:Beihang University, University of Southern California
主要贡献
- 提出了同时使用generative和contrastive目标的MTL框架,用于从文本中学习commen sense;
- 提出了concept-to-sentence generation (C2S) 和concept order recovering (COR) 两个预训练任务,用于从文本中学习commensense;
- 对比此前方法的一个优点是不需外部KB。
Generative目标
- 预处理 (Concept Extraction):对于给定输入,使用Spacy工具进行词性标注,抽取其中的动词、名词和专有名词 (Proper Nouns),作为concept。
Concept-to-Sentence Generation (C2S)
:将concept打乱顺序,然后训练模型根据打乱顺序的concept重新生成原句 (由于该任务与COR使用同一模型训练,在输入之前加上< c2s >前缀);Concept Order Recovering (COR)
:将原句中concept同样词性的互相之间打乱顺序 (即名词和名词换,动词和动词换,目的是为了使句子的语法仍然保持正确),然后训练模型预测正确的原句 (加< cor >前缀)。

Contrastive目标
- 将原句和一个错误的句子 (distractor) 拼接同时输入模型 (输入前加< cont >前缀),训练模型预测正确的句子。

Joint目标
- 先训练固定轮数的generator;
- 然后用generator生成的句子作为distractor训练discriminator;
- 每次从两个generative目标生成的句子中随机sample一个作为distractor。

实验
- 在CSQA、OBQA、PIQA等commonsense reasoning数据集上性能超过了ERNIE、KnowBERT和T5-base。
ERNIE-M
论文题目:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
单位:Baidu Inc.
主要贡献
- 使用back-translation方法从单语数据中构建伪双语平行数据,用于预训练,解决了此前跨语言预训练模型受限于双语平行数据量的问题。
预训练任务
- TLM:这个是XLM中使用的预训练任务,需要双语平行数据;
- MMLM:直接把来自两个语言的句子拼接输入进行MLM,由于不是平行数据,因此预测每个语言的mask时只能attend自己语言中的token;
Cross-attention Masked Language Modeling (CAMLM)
:在双语平行句子中做MLM,与TLM的区别是预测一种语言中被mask的token时,只能用另一种语言的信息 (具体实现中有一个mask matrix阻止两个语言相互attend);

Back-translation Masked Language Modeling (BTMLM)
:第一步,用CAMLM训练好的模型构造伪双语平行数据,具体流程为在单语句子后添加若干[MASK],然后用language embedding和position embedding控制要生成的语言和长度 (这里有个问题是目标语言句子长度如何控制?这个应该是MLM做生成的一个问题,即需要预先知道生成句子的长度);第二步,将原始单语句子和生成的伪翻译句子拼接作为输入,mask原始单语句子中的词并预测。

其他
- 在训练TLM和CAMLM任务时,仍然需要真实的双语平行数据,本文在实验中也使用了与INFOXLM相同的双语平行数据;
- 在XNLI、CoNLL NER、MLQA、PAWS-X (Paraphrase Identification)等任务上和mBERT、XLM-R、INFOXLM等模型进行了对比,取得了SOTA;
- 论文的主要贡献在于提出了CAMLM和BTMLM两个预训练任务,解决的是此前跨语言模型受限于平行数据量的问题,似乎并没有融合额外的知识。
ERNIE 3.0
论文题目:ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
单位:Baidu Inc.
主要贡献
- ERNIE 3.0模型结合了auto-regressive和auto-encoding两种network,因此能既能处理NLU也能处理生成任务。
- 训练了10B参数的模型,在54个中文NLP任务上取得SOTA效果,在英文SuperGLUE上取得了第一 (2021.07.03)。
KMLM
论文题目:Knowledge Based Multilingual Language Model
单位:DAMO Academy, Nanyang Technological University
主要贡献
- 使用Wikidata KG生成大量code-switched人造训练数据 (包括
code-switched knowledge data
和reasoning data
),并提出两种预训练任务,增强模型记忆知识的能力和推理能力。
相对ERNIE、K-BERT、KnowBERT、K-Adapter的优点
- 训练中直接使用了logical reasoning任务,因此能从数据中学习logical pattern;
- 不需要额外的encoder编码KG,也不需要entity linker将文本和entity进行连接;
- 在训练和fine-tune阶段都不改变预训练模型结构 (这一点和WKLM相同)。
生成训练集流程
Code Switched Synthetic Sentences
:
- 确定语言对,本文中始终使用英语作为源语言,因此只需要决定目标语言;
- 找到英文上的三元组(h,r,t),如下图所示,WikiData中每个entity有多个别名 (alias),这里三元组使用原始的标签 (Label这列的值);
- 对于三元组中每个对象,以50%概率决定是否用目标语言中对应的label替换它;
- 在三元组中间插入两个[MASK],得到“h [MASK] r [MASK] t”。
生成同义词替换句子也按照上面流程,区别是在第3步中从alias这一列sample出替换的词来。

Reasoning Based Training Data
:
- 从WikiData中搜索长度为3和4的环 (搜索时将KG视为无向图,要求长度为4的环中必须存在一个对角线关系);

- 将环中的每个三元组通过
Code Switched Synthetic Sentences
方法转换成一句话,然后把环中的每句话拼接起来作为训练数据。

预训练任务
Multilingual Knowledge Oriented Pretraining
:使用Code Switched Synthetic Sentences
步骤生成的训练数据进行训练,由于中间插入的两个[MASK]实际应该对应的token是不确定的 (甚至无法确定这里应该插入[MASK]或者说这里[MASK]个数不确定),这里预训练时是在其他token中进行mask,然后预测这些被mask的entity和relation。Logical Reasoning Oriented Pretraining
:使用Reasoning Based Training Data
步骤生成的训练数据进行训练。- 对于长度为3的环,在每个例子中每个entity正好出现2次,如果对entity进行mask,则可以很容易的通过统计缺少的entity来预测,因此对每个例子随机mask掉一个relation进行预测。
- 对于长度为4的环,在80%情况下,首先随机mask一个relation,然后为了增加难度,再随机mask掉1-2个entity;在剩余20%情况下,随机mask掉其中一个句子的head和tail两个entity。
最后上述两个预训练任务的loss相加之后前面乘以一个超参再与原始MLM任务相加。
其他
- 使用了10种语言训练,包括:English (en), Vietnamese (vi), Dutch (nl), German (de), French (fr), Italian (it), Spanish (es), Japanese (ja), Korean (ko), Chinese (zh);
- 训练时使用了KEPLER公布的Wikidata5M中的5M个entity和822个relation,生成了250M code-switched synthetic sentence (code-switched和aliase replaced各125M)和100M reasoning based data;
- 还从CC100数据集 (数据来自CCNet: Extracting high quality monolingual datasets from web crawl data),但是不知道为啥目前显示Service Unavailable) 中sample了260M的10种语言数据来训练普通MLM;
- 分别使用XLM-R-base/large和mBERT-base初始化训练模型;
- 实验包括跨语言NER (CoNLL02/03、WikiAnn)、factual knowledge retrieval (X-FACTR)、Relation Classification (RELX)、cross-lingual logic reasoning (XLR,该数据由本文构造,给定两个三元组,问题是其中没有直接标注的两个entity之间的关系,给出6个选项作为候选答案,该任务实际上是专门为本文的
Logical Reasoning Oriented Pretraining
任务设计,构建数据集时也使用的是里面的logic examples。其中人工标注1000句作为测试集,训练和开发集都是自动构造。)以及来自XTREME中的跨语言POS、QA和分类任务;实验使用的都是zero-shot cross-lingual learning setting; - 只跟XLM-R和mBERT进行了对比,没有跟其他更强的跨语言预训练模型对比。
Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification
论文题目:Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification
单位:George Washington University, Meta AI
主要贡献
- 使用ATOMIC常识知识图谱数据集构建包含常识信息的句子,并使用MLM任务在BERT上继续训练,增强BERT的常识推理能力。
其他
- ATOMIC (Comet-atomic 2020: On symbolic and neural commonsense knowledge graphs) 是一个commensense knowledge base,其中定义了Reason、Causes、isAfter等relation,每个relation都有一个对应的human-readable template (例如:
xEffect’s
对应的是as a result
); - 本文利用了上述relation对应的解释将三元组转化为句子 (如下图所示)。
