知识增强预训练模型总结

知识增强预训练模型 (Knowledge Enhanced Pre-trained Language Model) 总结与对比。

模型信息

模型结构后面带了init表示使用预训练好的该模型的参数进行初始化,scratch表示从头开始训练,fix表示固定预训练模型参数。

模型名称 发表日期 语言 模型结构 发表 引用
ERNIE 2019.03 EN BERT-init ACL 2019 525
ERNIE 1.0 2019.04 EN,ZH BERT Arxiv 2019 354
ERNIE 2.0 2019.07 EN,ZH BERT AAAI 2020 287
SenseBERT 2019.08 EN BERT-scratch ACL 2020 92
KnowBert 2019.09 EN BERT-init EMNLP 2019 284
LIBERT 2019.09 EN BERT-scratch Arxiv 2019 19
K-BERT 2019.09 ZH BERT-scratch AAAI 2020 219
KEPLER 2019.11 EN RoBERTa-init TACL 2021 100
BERT-MK 2019.11 EN BERT EMNLP F. 2020 29
E-BERT 2019.11 EN BERT-init EMNLP F. 2020 43
WKLM 2019.12 EN BERT-init ICLR 2020 60
K-Adapter 2020.10 EN RoBERTa-fix ACL F. 2021 105
CoLAKE 2020.10 EN RoBERTa-init COLING 2020 28
CALM 2020.02 EN T5-init ICLR 2021 10
ERNIE-M 2020.12 96 lans XLM-R-init EMNLP 2021 11
ERNIE 3.0 2021.07 EN,ZH MLM+enc-dec Arxiv 2021 15
KMLM 2021.11 10 lans XLM-R-init Arxiv 2021 -

ERNIE

论文题目:ERNIE: Enhanced Language Representation with Informative Entities

单位:Tsinghua University, Huawei Noah’s Ark Lab

主要贡献

  • 使用K-Encoder将使用TransE算法 (Translating Embeddings for Modeling Multi-relational Data) 生成的entity embedding作为额外输入;
  • 提出了新的denoising auto-encoder (dEA) 预训练任务,将entity和输入文本中的alignment随机遮盖,重新预测对齐关系。
ernie.png

预训练任务

  • dEA
  • MLM
  • NSP

其他

  • dEA预训练任务:(1) 5%情况下将和token对齐的entity替换为另一个随机entity; (2) 15%情况下遮盖token和entity的对齐; (3) 其他情况下保持对齐不变;
  • 使用英文Wikipedia作为预训练数据,并将其与Wikidata对齐;
  • 在预训练之前,使用TransE算法在Wikidata上训练entity embedding (使用部分wikidata,包括5,040,986个entity和24,267,796个三元组),该embedding在训练ERNIE过程中是固定的;
  • 在使用ERNIE模型前先识别文本中的named entity mention,然后将其与知识图谱中的entity对齐。 (这里对齐的作用是使用TransE在KG上训练的entity embedding作为额外输入)

补充

ERNIE 1.0

论文题目:ERNIE: Enhanced Representation through Knowledge Integration (有两篇叫ERNIE的文章,后面把百度这篇称为ERNIE 1.0)

单位:Baidu Inc.

主要贡献

  • 提出了entity masking和phrase masking预训练任务,强化这类外部知识。
ernie1.png

这个点比较小,其他都跟BERT一样,因此一直没发表。

ERNIE 2.0

论文题目:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

单位:Baidu Inc.

主要贡献

  • Continual Pre-training Framework:逐渐增加预训练任务个数,每次增加新的预训练任务时使用上次训练的模型初始化参数,然后将新任务和之前的任务共同训练,从而避免灾难性遗忘;
  • 提出3类共7种预训练任务,证明上述框架的有效性。
ernie2.png

预训练任务

Word-aware Pre-training Tasks:

  • Knowledge Masking Task:ERNIE 1.0中提出的phrase masking和named entity masking任务;
  • Capitalization Prediction Task:为了结合cased和uncased两种模型的优点,使用该任务预测一个词是否应为大写;
  • Token-Document Relation Prediction Task:预测一个词是否出现在相同文档的其他段落中,该任务能增强模型捕获文档中心词 (key word) 的能力;

Structure-aware Pre-training Tasks:

  • Sentence Reordering Task:一个文档被切分为多个段落并打乱顺序,该任务要求模型通过多分类 (从所有可能的排列中选一个) 预测原本顺序;
  • Sentence Distance Task:NSP任务的扩展,输入两个句子进行3分类:(1) 相邻;(2) 不相邻但来自同一文档;(3) 来自不同文档;

Semantic-aware Pre-training Tasks:

  • Discourse Relation Task:通过外部数据构建预测两个句子之间语义关系的任务;
  • IR Relevance Task:通过搜索引擎构建的任务,输入由query和title两个句子拼接,目标为3分类:(1) 强相关 (用户搜索query后点击了title);(2) 弱相关 (用户搜索query后引擎返回了title但未点击);(3) 无关。

上述预训练任务由多个不同的数据集构建而成,一个数据集可能对应多个预训练任务,具体对应信息如下:

ernie2-data.png

Continual Multi-task Learning:

CMTL与传统的Continual Learning和MTL对比如下,具体来说在CMTL中每个任务固定能更新50k个step,然后根据任务的多少将这些step分布到不同的训练阶段。每个任务第一次出现时更新次数最多,此后更新次数较少。

ernie2-cmtl.png

两个问题

  • 虽然本文说该方法的一个优点是不需要提前准备好所有的预训练任务,但是从表中策略来看,每个预训练任务的step分配应该也需要知道总共的预训练任务个数。(可能在实际应用中每个任务第一次出现更新一个固定的比较多的step数,例如50k;后面训练时更新一个固定的较少的step数,例如10k)
  • 在多个任务同时存在的训练阶段是同时计算每个任务loss一起更新还是每个batch单独训练不同的任务?(文中没有找到明确的说明,但考虑到不同任务可能不是在同样的文本上构建的,应该是后者)

SenseBERT

论文题目:SenseBERT: Driving Some Sense into BERT

单位:AI21

主要贡献

  • 提出了supersense预测任务,在预测mask的token的同时也预测该token从WordNet中定义的allowed supersense (优化目标为最小化当前被mask的token的每个可能的supersense,并使它们之间的概率分布尽量平均,这两个目标分别使用一个损失函数,然后把这两个损失函数相加);
  • 在计算BERT输入的时候使用额外的supersense embedding matrix,然后使用WordNet中定义的每个token的allowed supersense构建对应的0-1 matrix将supersense embedding投射到对应词。
sensebert.png

其他

统计allowed supersense时,有以下三种不计算,认为允许集合为空:

  • 少于3个字母的词;
  • 停用词;
  • 表示部分词的token (即被BERT切分了的word piece,本文中有实验用于处理这种情况,例如将BERT原始30K词表扩大到60K等)。

KnowBERT

论文题目:Knowledge Enhanced Contextual Word Representations

单位:AI2, University of California, University of Washington

主要贡献

  • 提出Knowledge Attention and Recontextualization component (KAR),将知识库 (knowledge base) 融合到预训练模型中。

模型结构

  • Mention-Span Representation:利用现有的KB entity selector从输入文本中识别若干候选mention。BERT上一层的表示首先通过一个线性层投射到一个较小的维度 (图中第1步)。然后候选mention所在的span中的表示通过self-attentive span pooling的方式转化为C个mention-span的表示向量$S$ (图中第2步)。
  • Entity Linker:mention-span通过一个transformer block获取其它mention信息,从而变为$S^e$ (图中第3步);使用$S^{e}$ 和mention-span的候选entity的向量以及KB中定义的先验概率计算每个entity linking (即mention-span和entity对应关系) 的分数,之后过滤掉分数低于某一阈值的entity,并将剩余的entity embedding按分数加权平均作为对应的entity embedding (图中第4步):

  • Knowledge Enhanced Entity-Span Representation:将上一步获取的weighted entity embedding加上此前的mention-span representation作为entity-span representation (图中第5步)。

  • Recontextualization:在降维和BERT表示和上一步获得的entity-span representation之间使用word-to-entity-span attention (即transformer block把self-attention改成这两个表示之间的attention) (图中第6步)。最后通过线性层升维到BERT的隐层大小 (图中第7步),作为BERT下一层的输入。
knowbert.png

其他

  • 预训练过程中如果有外部数据能提供entity linking的监督信号,则通过log-likelihood和max-margin计算其loss并与BERT原始loss相加一起使用;
  • 应用时可以在BERT的不同层插入不同来源的KB,本文尝试了分别使用Wikipedia和WordNet以及同时使用二者;
  • 训练BERT之前先使用现有方法在KB基础上训练entity embedding,之后训练中固定该embedding。

LIBERT

论文题目:Informing Unsupervised Pretraining with External Linguistic Knowledge

单位:University of Mannheim, University of Cambridge

主要贡献

  • 提出了一个预训练任务,首先收集近义词对 (synonyms) 和上下文关系词对 (hyponym-hypernym),然后将每个词对的两个词拼接,中间加上[SEP]标记作为正例,然后根据每个batch中的词向量距离挑选距离最近的词替换词对中的一个作为负例,训练目标为2分类,即二者是否是正例。

K-BERT

论文题目:K-BERT: Enabling Language Representation with Knowledge Graph

单位:Peking University, Tencent Research, Beijing Normal University

主要贡献

  • 提出了一种在fine-tuning阶段将KG融入BERT的方法,通过soft position和visible matrix缓解了知识过多导致的knowledge noise问题。

模型结构

  • Knowledge Layer:可以视为预处理阶段,首先识别输入文本中的entity,然后从KG中搜索每个entity对应的三元组,将其以分支的形式插入句子中,形成一个sentence tree (注意这里树的深度最大为1,也就是说不会迭代地搜索三元组);
  • Token Embedding:将sentence tree中的每个token按照hard position顺序压缩成序列,然后根据BERT的embedding matrix转化成对应embedding (这里注意的是来自KG中的entity的embedding也是用BERT embedding表示的,文中说这是为了解决此前方法中普通token向量和entity向量不一致的问题);
  • Soft-position Embedding:首先将原句中的token按照顺序标上位置向量,然后每个分支的位置向量由该分支的 (在原句中的) head的位置id开始增加,该embedding作为BERT输入中的位置向量输入;
  • Visible Matrix:为了避免插入的知识影响其他不相关的token,在计算attention时使用visible matrix只允许每个token看到自己相关分支的表示向量。
k-bert.png

其他

  • 虽然该方法是直接应用到已经预训练完的模型的fine-tuning阶段的,但在本文的实验中其BERT模型仍然是从头开始预训练的,其预训练setting与BERT原文相同。

KEPLER

论文题目:KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

单位:BNRist, Tsinghua University, Princeton University, Mila-Québec AI Institute, Univesité de Montréal

主要贡献

  • 提出了Knowledge Embedding任务,与MLM任务同时学习,将来自KG的知识融入预训练模型;
  • 公布了来自Wikidata的Knowledge graph dataset,Wikidata5M
  • 相比此前方法,该方法在fine-tuning和inference阶段不引入额外参数和计算。

Knowledge Embedding

本文在预训练时使用的框架如下图所示,传统KE学习算法都使用固定的embedding表示entity和relation,本文主要思想是使用BERT encode他们对应的说明文本作为其表示。
具体来说,首先提出了3种方法获取表示:

  • 使用BERT获取head和tail的表示,relation仍然使用固定向量;
  • 使用BERT获取head、tail和relation的表示;
  • 使用BERT获取head和tail的表示,在计算relation表示时,拼接head和relation的说明文本作为输入。

然后使用了RotatE: Knowledge Graph Embedding by Relational Rotation in Complex中提出的max-margin loss作为KE任务的学习目标 (其中使用了负采样方法)。损失函数中的scoring function采用了TransE中定义的损失函数$||h+r-t||_p$。(学习目标似乎是让正确的head向量+relation向量与tail向量间的距离尽量近,而错误的尽量远。)

kepler.png

BERT-MK

论文题目:BERT-MK: Integrating Graph Contextualized Knowledge into Pre-trained Language Models

单位:Huawei Noah’s Ark Lab, Huawei Cloud & AI, University of Science and Technology of China

主要贡献

  • 在ERNIE (Tsinghua) 的基础上将其输入的由TransE训练的固定entity embedding替换为由医学知识抽取的subgraph计算的contextualized knowledge。(主要解决的问题是TransE无法处理一对多、多对一和多对多等复杂的关系,这种关系在医学知识图谱中是非常多的。)
bert-mk.png

预处理阶段

  • 原始KG见图中 (a) 部分,包括4个1跳关系,首先将relation也变成节点,即图中 (b) 部分;
  • 然后按照顺序将entity和relation的节点按顺序排列 (node sequence);
  • 获取node position index,其中三个index分别表示head、relation和tail在节点序列中的位置;
  • 获取邻接矩阵,节点图 (b) 中直接相邻的点之间为1,其他为0 (只统计有向关系)。
bert-mk-knowledge.png

Graph Contextualized Knowledge Embedding (GCKE) 模块

  • 结构图右边为GCKE模块,首先输入的是预处理阶段的node sequence (以及对应的邻接矩阵)
  • 之后利用node position index获取每个三元组的head、relation和tail节点的表示向量,然后将最小化margin-based loss作为学习目标 (与KEPLER中的loss类似,负例通过将head或tail随机替换为不在KG中的entity生成)。

其他

  • 这里GCKE模块是用于替换ERNIE里的TransE算法,论文中的实验对比也是对比的同样的框架下使用这两种entity embedding计算方法;
  • 在具体实现中使用了TransE算法获得的embedding对GCKE中的embedding进行初始化。

E-BERT

论文题目:E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT

单位:LMU Munich, Siemens AG Munich

主要贡献

e-bert.png

其他

  • 本文的目标是将entity embedding投射到BERT wordpiece embedding的空间,但由于二者没有交集,因此首先学习一个由Wikipedia2Vec生成的word embedding到BERT wordpiece embedding的线性变换矩阵W。因为Wikipedia2Vec生成的word embedding和entity embedding是在同一空间中的,该变换矩阵W也可以直接应用在entity embedding上从而将其映射到BERT wordpiece embedding的空间中;
  • 应用到下游任务时,将BERT wordpiece embedding和变换过的entity embedding固定,fine-tune其他的参数。

WKLM

论文题目:Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model

单位:University of California Santa Barbara, Facebook AI

主要贡献

  • 提出一种新的预训练任务,将原始文本中的entity mention随机替换为同类的其他entity,然后训练模型分辨文本中表示的知识是否正确。
wklm.png

相对于ERNIE和KnowBERT的优点

  • WKLM能从非结构化文本中直接获取真实世界的知识;
  • WKLM不需要额外的数据处理,在fine-tune时不用对BERT模型做任何改变。

其他

  • 预训练时同时使用MLM任务 (以Multi-task Learning方式);
  • 在Entity Typing任务上和ERNIE进行了对比,但没有和KnowBERT对比。

K-Adapter

论文题目:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

单位:Fudan University, Microsoft

主要贡献

  • fix RoBERTa参数,用multi-task learning方式训练多种任务,每种任务对应一组adapter,预测时拼接多个adapter的表示。
k-adapter.png

预训练任务

  • Factual Adapter:从T-REx数据集 (Wikipedia摘要和Wikidata里的三元组的对齐数据集) 中抽取出所有出现超过50次的三元组 (包括430个关系和5.5M的句子),在该数据集上训练关系分类任务 (relation classification,拼接两个entity的表示进行分类)。

  • Linguistic Adapter:使用Stanford Parser自动生成1M句子的句法树,在该数据集上训练依存关系预测任务,即为每个token预测其在句法依存树上的父节点。

以下为K-Adapter和此前方法的对比:

k-adapter-comparison.png

CoLAKE

论文题目:CoLAKE: Contextualized Language and Knowledge Embedding

单位:Fudan University, Amazon Shanghai AI Lab

主要贡献

  • 通过构建Word-Knowledge graph (WK graph)获取文本中的entity及其相关的entity组成的子图,利用transformer encode该子图,从而将真正的contextualized konwledge融入模型中。
colake.png

WK Graph构造

  • 将输入文本tokenize成token序列,表示为全连接图,识别其中的entity mention;
  • 用entity linker将这些mention与KG中的entity连接,并用entity替换这些mention token,称为anchor nodes
  • 从KG中搜索这些anchor node的相邻entity (或称为knowledge context),将这些三元组和原来的全连接图组合成为WK graph。

模型结构

上述的WK graph使用方法如下图所示,作为transformer输入:

  • 使用type embedding区分原始文本中的token,KG中的entity和relation;
  • 训练任务是对MLM的改进,分别包括mask word/entity/relation三种节点。
colake-model.png

CoLAKE跟此前semi-contextualized joint model (ERNIE, KnowBERT) 对比:

wk-graph.png

CoLAKE跟其他知识增强模型对比:

colake-comparison.png

CALM

论文题目:Pre-training Text-to-Text Transformers for Concept-centric Common Sense

单位:Beihang University, University of Southern California

主要贡献

  • 提出了同时使用generative和contrastive目标的MTL框架,用于从文本中学习commen sense;
  • 提出了concept-to-sentence generation (C2S) 和concept order recovering (COR) 两个预训练任务,用于从文本中学习commensense;
  • 对比此前方法的一个优点是不需外部KB。

Generative目标

  • 预处理 (Concept Extraction):对于给定输入,使用Spacy工具进行词性标注,抽取其中的动词、名词和专有名词 (Proper Nouns),作为concept。
  • Concept-to-Sentence Generation (C2S):将concept打乱顺序,然后训练模型根据打乱顺序的concept重新生成原句 (由于该任务与COR使用同一模型训练,在输入之前加上< c2s >前缀);
  • Concept Order Recovering (COR):将原句中concept同样词性的互相之间打乱顺序 (即名词和名词换,动词和动词换,目的是为了使句子的语法仍然保持正确),然后训练模型预测正确的原句 (加< cor >前缀)。
calm-generative.png

Contrastive目标

  • 将原句和一个错误的句子 (distractor) 拼接同时输入模型 (输入前加< cont >前缀),训练模型预测正确的句子。
calm-contrastive.png

Joint目标

  • 先训练固定轮数的generator;
  • 然后用generator生成的句子作为distractor训练discriminator;
  • 每次从两个generative目标生成的句子中随机sample一个作为distractor。
calm-joint.png

实验

  • 在CSQA、OBQA、PIQA等commonsense reasoning数据集上性能超过了ERNIE、KnowBERT和T5-base。

ERNIE-M

论文题目:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

单位:Baidu Inc.

主要贡献

  • 使用back-translation方法从单语数据中构建伪双语平行数据,用于预训练,解决了此前跨语言预训练模型受限于双语平行数据量的问题。

预训练任务

  • TLM:这个是XLM中使用的预训练任务,需要双语平行数据;
  • MMLM:直接把来自两个语言的句子拼接输入进行MLM,由于不是平行数据,因此预测每个语言的mask时只能attend自己语言中的token;
  • Cross-attention Masked Language Modeling (CAMLM):在双语平行句子中做MLM,与TLM的区别是预测一种语言中被mask的token时,只能用另一种语言的信息 (具体实现中有一个mask matrix阻止两个语言相互attend);
ernie-m-camlm.png
  • Back-translation Masked Language Modeling (BTMLM):第一步,用CAMLM训练好的模型构造伪双语平行数据,具体流程为在单语句子后添加若干[MASK],然后用language embedding和position embedding控制要生成的语言和长度 (这里有个问题是目标语言句子长度如何控制?这个应该是MLM做生成的一个问题,即需要预先知道生成句子的长度);第二步,将原始单语句子和生成的伪翻译句子拼接作为输入,mask原始单语句子中的词并预测。
ernie-m-btmlm.png

其他

  • 在训练TLM和CAMLM任务时,仍然需要真实的双语平行数据,本文在实验中也使用了与INFOXLM相同的双语平行数据;
  • 在XNLI、CoNLL NER、MLQA、PAWS-X (Paraphrase Identification)等任务上和mBERT、XLM-R、INFOXLM等模型进行了对比,取得了SOTA;
  • 论文的主要贡献在于提出了CAMLM和BTMLM两个预训练任务,解决的是此前跨语言模型受限于平行数据量的问题,似乎并没有融合额外的知识。

ERNIE 3.0

论文题目:ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

单位:Baidu Inc.

主要贡献

  • ERNIE 3.0模型结合了auto-regressive和auto-encoding两种network,因此能既能处理NLU也能处理生成任务。
  • 训练了10B参数的模型,在54个中文NLP任务上取得SOTA效果,在英文SuperGLUE上取得了第一 (2021.07.03)。

KMLM

论文题目:Knowledge Based Multilingual Language Model

单位:DAMO Academy, Nanyang Technological University

主要贡献

  • 使用Wikidata KG生成大量code-switched人造训练数据 (包括code-switched knowledge datareasoning data),并提出两种预训练任务,增强模型记忆知识的能力和推理能力。

相对ERNIE、K-BERT、KnowBERT、K-Adapter的优点

  • 训练中直接使用了logical reasoning任务,因此能从数据中学习logical pattern;
  • 不需要额外的encoder编码KG,也不需要entity linker将文本和entity进行连接;
  • 在训练和fine-tune阶段都不改变预训练模型结构 (这一点和WKLM相同)。

生成训练集流程

Code Switched Synthetic Sentences

  • 确定语言对,本文中始终使用英语作为源语言,因此只需要决定目标语言;
  • 找到英文上的三元组(h,r,t),如下图所示,WikiData中每个entity有多个别名 (alias),这里三元组使用原始的标签 (Label这列的值);
  • 对于三元组中每个对象,以50%概率决定是否用目标语言中对应的label替换它;
  • 在三元组中间插入两个[MASK],得到“h [MASK] r [MASK] t”。

生成同义词替换句子也按照上面流程,区别是在第3步中从alias这一列sample出替换的词来。

kmlm-knowledge.png

Reasoning Based Training Data

  • 从WikiData中搜索长度为3和4的环 (搜索时将KG视为无向图,要求长度为4的环中必须存在一个对角线关系);
kmlm-cycle.png
  • 将环中的每个三元组通过Code Switched Synthetic Sentences方法转换成一句话,然后把环中的每句话拼接起来作为训练数据。
kmlm-logic.png

预训练任务

  • Multilingual Knowledge Oriented Pretraining:使用Code Switched Synthetic Sentences步骤生成的训练数据进行训练,由于中间插入的两个[MASK]实际应该对应的token是不确定的 (甚至无法确定这里应该插入[MASK]或者说这里[MASK]个数不确定),这里预训练时是在其他token中进行mask,然后预测这些被mask的entity和relation。

  • Logical Reasoning Oriented Pretraining:使用Reasoning Based Training Data步骤生成的训练数据进行训练。

    • 对于长度为3的环,在每个例子中每个entity正好出现2次,如果对entity进行mask,则可以很容易的通过统计缺少的entity来预测,因此对每个例子随机mask掉一个relation进行预测。
    • 对于长度为4的环,在80%情况下,首先随机mask一个relation,然后为了增加难度,再随机mask掉1-2个entity;在剩余20%情况下,随机mask掉其中一个句子的head和tail两个entity。

最后上述两个预训练任务的loss相加之后前面乘以一个超参再与原始MLM任务相加。

其他

  • 使用了10种语言训练,包括:English (en), Vietnamese (vi), Dutch (nl), German (de), French (fr), Italian (it), Spanish (es), Japanese (ja), Korean (ko), Chinese (zh);
  • 训练时使用了KEPLER公布的Wikidata5M中的5M个entity和822个relation,生成了250M code-switched synthetic sentence (code-switched和aliase replaced各125M)和100M reasoning based data;
  • 还从CC100数据集 (数据来自CCNet: Extracting high quality monolingual datasets from web crawl data),但是不知道为啥目前显示Service Unavailable) 中sample了260M的10种语言数据来训练普通MLM;
  • 分别使用XLM-R-base/large和mBERT-base初始化训练模型;
  • 实验包括跨语言NER (CoNLL02/03、WikiAnn)、factual knowledge retrieval (X-FACTR)、Relation Classification (RELX)、cross-lingual logic reasoning (XLR,该数据由本文构造,给定两个三元组,问题是其中没有直接标注的两个entity之间的关系,给出6个选项作为候选答案,该任务实际上是专门为本文的Logical Reasoning Oriented Pretraining任务设计,构建数据集时也使用的是里面的logic examples。其中人工标注1000句作为测试集,训练和开发集都是自动构造。)以及来自XTREME中的跨语言POS、QA和分类任务;实验使用的都是zero-shot cross-lingual learning setting;
  • 只跟XLM-R和mBERT进行了对比,没有跟其他更强的跨语言预训练模型对比。

Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification

论文题目:Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification

单位:George Washington University, Meta AI

主要贡献

  • 使用ATOMIC常识知识图谱数据集构建包含常识信息的句子,并使用MLM任务在BERT上继续训练,增强BERT的常识推理能力。

其他

  • ATOMIC (Comet-atomic 2020: On symbolic and neural commonsense knowledge graphs) 是一个commensense knowledge base,其中定义了Reason、Causes、isAfter等relation,每个relation都有一个对应的human-readable template (例如:xEffect’s对应的是as a result);
  • 本文利用了上述relation对应的解释将三元组转化为句子 (如下图所示)。
atomic.png