自演化 ;知识图谱;知识图谱补全;关系路径推理;表示学习;强化学习;元学习;联合学习;生成式模型;
什么是自演化?
是指知识图谱的自动更新迭代,需要对需更新的相关实体进行自动发掘,完成知识收集与融合等步骤,并在添加或更新实体、关系、属性后,对不直接与该实体相关但需要更新的三元组进行推断与更新、对图谱中原本不存在的关系、实体进行自动补全。对此我们可以将其拆分为两个子问题,对需要进行自演化的实体进行挖掘,及对知识图谱中缺失的部分进行预测与补全。
为什么需要自演化?
- 知识库中的知识具有时效性,并非一成不变,而是处在动态更新中。例如美国总统从特朗普变成了拜登,詹姆斯哈登从火箭去了篮网;与我们的专业工作结合,例如某武器装备研制阶段发生变化、某项技术在某某型号得到新的应用、美军开展了某新项目的研究等。我们需要对知识图谱进行持续更新与维护,保持其先进性和正确性。
- 知识图谱的构建过程中会出现大量的实体和关系,如Knowledge Vault中的实体已达到4500万,关系有4469种,三元组数量达到2.7亿个。尽管数据体量已经如此之大,但具体进行分析会发现许多实体间本应存在的关系并未建立。如超过一半以上的人不具备出生地关系或国籍属性等。究其原因是用于构建知识库的文档或信息提取算法中含有噪声,产生无用信息;文档本身所含信息量有限;许多常识性信息不会给出明显描述等。因此知识补全技术对于构建正确、完整的知识图谱尤为重要。
- 当前的知识图谱更新手段分为全量更新与增量更新,前者以更新后的全部数据作为输入,开销很大;而后者需要大量的人工干预(如定义规则),难以实施。为节省人力物力,实现知识图谱的智能化更新迭代,需要研究知识图谱的自演化技术。
对需要进行自演化的实体进行挖掘
对知识图谱进行自动补全
知识图谱的概念与实体
知识图谱的结构可以分为两个层面。通常我们所说的是其底层逻辑,即表示为(实体1,实体2,关系)的三元组。如(姚明,叶莉,妻子)。对此类三元组进行补全与预测是我们主要所研究的内容,即研究两个已知实体的关系(姚明,叶莉,?),或已知头/尾实体及关系,推测尾/头实体(姚明,?,妻子),即实体层次的知识图谱补全。
在此之上是知识图谱的概念层级,是对一类实体的概念级抽象。如下图所示,奥巴马是人、政治家、艺术家、作家、演员。对实体的概念缺失进行补全也是一个研究方向,即概念层次的知识图谱补全。
实体层次知识图谱补全的主要方法
未来的发展与挑战
- 长尾实体与稀疏关系:很多实体,如总统、明星等,关于他们的文章、报道十分丰富,而对于数量庞大的普通民众实体,出现频率很低,导致他们的关系示例十分稀疏。可能需要信息检索、关系发现、实体链接等多种技术的结合进行解决。
- 实体关系的一对多、多对多问题:针对许多领域知识,如生命科学领域,某一种基因会和几百甚至上千种蛋白质相关, 某一反应路径会重复出现在成千上万组反应序列中。现有方法难以应对这成百上千数量级的关系学习问题,需要增加新的控制变量和约束,或提出全新的思路或模型。
- 三元组的动态变化与增加:新的知识不断产出,基于旧的知识建立和补全的知识图谱的更新过程将变得十分复杂。该领域的研究尚未引起足够的重视。
- 关系预测的路径在不断边长: PRA 等方法中我们会看到从一个实体到另一个实体的路径长度往往超过 1,而现有的主要方法中该路径长度一般不会超过 4,但实体间的关系路径很可能不断增加,如某种疾病与基因的关系长度很可能在5以上。知识图谱补全过程需要更高效的模型来描述更复杂的关系预测模型。
参考文献
- 漆桂林, 李丞, 李林,等. 一种知识图谱动态更新方法:, CN109033160A[P].
- 王策. 一种知识图谱中实体更新的方法,装置和服务器:, CN110019840A[P]. 2019.
- 刘颖, 朱连宏, 关礼安,等. 一种面向知识图谱的大规模数据增量处理方法:, CN111382320A[P]. 2020.
- Jiaqing Liang, Sheng Zhang, Yanghua Xiao: How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source, Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence Main track. Pages 3749-3755
- Jizhi Tang, Yansong Feng, Dongyan Zhao:Learning to Update Knowledge Graphs by Reading News,
- Schlichtkrull, M., Kipf, T., Bloem, P., Berg, R.V., Titov, I., & Welling, M. (2018). Modeling Relational Data with Graph Convolutional Networks. ESWC.
- 知识图谱简介 https://www.cnblogs.com/huangyc/p/10043749.html
- Ji S , Pan S , Cambria E , et al. A Survey on Knowledge Graphs: Representation, Acquisition and Applications[J]. 2020.
- 王硕,杜志娟,孟小峰.大规模知识图谱补全技术的研究进展[J].中国科学:信息科学,2020,50(04):551-575.
- 知识图谱补全技术综述 http://www.360doc.com/content/20/1223/22/7673502_953113159.shtml