[论文笔记] X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models

论文题目:X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models

作者:Zhengbao Jiang, Antonios Anastasopoulos, Jun Araki, Haibo Ding, Graham Neubig

单位:Carnegie Mellon University, George Mason University, Bosch Research

期刊:EMNLP 2020

发表日期:2020.10.13

快速总结

  • 构建了23个类型不同的语言上的事实知识检索 (Factual Knowledge Retrieval) 数据库Crosslingual FACTual Retrieval benchmark (X-FACTR);
    • 此前类似数据库 (LAMA) 只考虑了single-token entities (例如:“France”),而X-FACTR考虑了multi-token entities (例如:“United States”);
    • 语言包括:English, French, Dutch, Spanish, Russian, Japanese, Chinese, Hungarian, Hebrew, Turkish, Korean, Vietnamese, Greek, Cebuano, Marathi, Bengali, Waray, Tagalog, Swahili, Punjabi, Malagasy, Yoruba, and Ilokano;
    • 所有语言来自11个语族 (the Indo-European ones include members of the Germanic, Romance, Greek, Slavic, and Indic genera),使用10种不同的文字 (scripts);
  • 提出一种基于code-switching-based方法用于增强跨语言预训练模型中知识的方法。
x-factr.png

分析实验

  • 超过一半的fact只在一种语言中预测正确;
  • 只有3%的fact在超过5种语言上预测正确;
  • 最高的英文和荷兰语之间只有34%的fact同时预测正确。
analysis.png