MaRVL多语Visual Language Reasoning数据集构建记录,参考论文Visually Grounded Reasoning across Languages and Cultures
主要分为五个步骤:
语言选择
选择类型学、语系、地理上都有较大区别的5种语言,包括了不同的书写体系以及低资源语言。
Indonesian (id),Swahili (sw),Tamil (ta),Turkish (tr),Mandarin Chinese (zh)。
universal concept选择
既要凸显出语言中最重要的概念,也要保持与其他语言有一定的一致性方便对比。
从一个共享的universal semantic field开始(使用Intercontinental Dictionary Series)
语言特定concept选择
3,4,5步的标注者都是从proz.com和prolific.co上找的标注者。
每种语言找5个native speaker,要求为每个semantic field提供5-10个specific concept的该语言wikipedia页面链接。(每个concept有0.1 GBP)
要求有2点:
- 提供的concept必须在使用该语言的人群中常见或具有代表性
- 最好是有型、具体的东西
注意concept必须是常见/流行的,这样可以避免遗产、传统、民俗等不常见的concept可以被避免。
将得到的concept按次数排名,只选排名最高且得票超过1的5个concept
每个语言得到86-96个concept
图片选择
根据第3步得到的concept从网上搜索图片链接,图片来源可以是本地网站、搜索引擎、Wikipedia等。每个语言雇佣2名标注者,要求每个concept找到12张对应图片。少于8张图片的concept被删除。
要求遵循NLVR2的图片选择规则:
- 包括至少2个concept的实例
- 包括了目标concept的实例和其他物体互动的场景
- 包括了目标concept的实例执行某种动作
- 展示了多种物体或特征
上述规则能帮助选择更复杂的图片,使图片中的挑战来自于组合推理而非物体检测。
此外,标注者还被要求选择图片时保证图片是在使用该语言的人群中常见或具有代表性的。
结果上来说,不同语言的标注者即使对同一个concept选出的图片也有较大差别。下面是一个篮球的例子:

此外选择图片时还要求避免:
- 人造图片;
- 拼贴画 (collage);
- 水印;
- 低分辨率图片;
目的是为了保证只有自然图片(即照片)被选择。(每个有效的图片有0.12 GBP)
图片使用CC-License。
收集完之后会人工检查一遍删除无效图片。
描述标注
对于一个concept,随机选取其对应的8张图片,随机组成4对。标注者被要求写一个描述,使其对其中2对图片是正确的,而对另2对图片时错误的。下面是一个例子:

标注的描述要围绕预先给出的theme concept。这样可以避免标注过于简单,同时使重点集中在图片的主体上。
这样每个标注的实例对应了4对图片,该标注方法是学习NLVR2的规则。
对每个concept标注4个实例。
标注过程中标注者可以汇报图片重复或者错误的theme concept等问题,也可以因为当前图片过难而跳过。
这里的标注者使用的是proz.com上至少有学士学位的native speaker进行标注。每个语言有2-4名标注者。
在标注之前有一个训练流程。训练流程要求标注者标注一个例子,之后会对该标注进行反馈,要求标注者按照规则修改。
在标注完一批数据后,另一些标注者(验证者)被要求标注同样的图片,并且在他们完成后展示和原始标注不同之处,新的标注者要写下他们标注不同的理由,包括原标注的语法错误等。
然后这些新的标注结果和理由被返回第一批标注者处要求他们修改。
最后,一位native speaker对标注进行检查,主要集中检查逻辑正确性,并修改小的语法错误和不一致之处。
标注者每句有效标注0.6 GBP,验证者每个例子0.1 GBP。
最终的数据集中每个样本包括2张图片,1段描述和一个True/False标签。