通过问题生成,我们得到了大量的模板问题以及问题对应的SPARQL, KoPL, 选项和标准答案。下一步对模板问题众包转写,在保持原意的前提下,转写得到更加流畅多样的问题。最后对众包转写的结果进行众包评测,评价指标为是否保持问题的原意和转写问题的流畅性,我们会丢弃未保持原意的问题,比如转写二“勒布朗·詹姆斯的个子是不是比他儿子高?”,这个转写将问题的答案变为是或否。


最终我们得到了约12万条五元组数据,将其命名为KQA Pro,是目前首个包含了自然语言、全知识类型、多种逻辑形式的大规模数据集。
3. 下一个问题

以上是我们探讨的第一个问题——如何构造大规模推理过程数据。在拥有领域一的推理过程数据之后,我们思考这些数据是否可以帮助其他领域学习推理过程?在这些领域里,已经有了一些问题和答案,但缺乏推理过程,比如是否可以使用金融领域的推理过程数据帮助医学领域的推理过程学习?
--
03
跨领域迁移
这是我们分享的第二个问题,我们希望将已有的推理过程迁移到其他领域中。
1. 跨领域迁移

考虑在KoPL推理过程的跨领域迁移,我们将推理过程划分为两个部分:
- 第一个部分是推理过程的骨架,指的是图谱的基本操作,比如问题“AI行业哪家公司2021年融资最多?”对应的KoPL有四个操作,第一个操作是找到知识图谱中对应AI行业的实体,第二个操作是通过关系找到跟AI行业具有所属关系的实体,这个操作可以找到跟AI行业相关的实体,比如公司、高校或从业人员等,第三个操作是对概念进行过滤,得到行业的所有公司,最后第四个操作是从公司里去比较属性“2021年融资”,从中选出属性值最大的实体。
- 第二个部分是推理过程的参数,指的是骨架中每个操作选取的内容,比如Concept选择了公司,公司就是一个参数。

通过将推理过程分解这样两个部分之后,我们发现了