原文:A Survey on Knowledge Graphs: Representation, Acquisition and Applications
知识图谱是事实的结构化表示,由实体、关系和语义描述组成。
//知识图谱的研究主要集中在知识表示学习(KRL)和知识图谱嵌入(KGE)两个方面。
0 主要内容
1)起源;关系学习技术;知识图谱表示、学习和推理的主要神经网络结构;应用
2)分类:见 知识图谱.思维导图
3)最新进展:基于transformer的知识编码、基于图神经网络(GNN)的知识传播、基于路径推理的强化学习和元关系学习
4)总结与展望
1 知识表示学习
知识表示学习(KRL)也可称为知识嵌入学习(KGE)、多关系学习和统计关系学习(SRL)
利用实体和关系的语义信息,将实体和关系映射成低维的向量表示
1.1 表示空间
(表示实体和关系)
{ ps. (h,r,t)指由head、relation、tail构成的三元组;(h,r,t)表示三元组的嵌入 }
1.1.1 点向空间
1)TransE:实体和关系处在一个d维的矢量空间中,嵌入规则为h+r≈t;
2)TransR:将实体(k维)与关系(d维)分开,实体(h、t)和关系(r)间由一个k×d的映射矩阵连接;
3)NTN:利用双线性张量神经层对实体进行多维度建模,实体间的关系由张量获得
{ ps.张量(Tensor):是深度学习的基础,详细解释见 https://www.zhihu.com/question/20695804 )
实际上就是一个多维数组,用以创造更高维度的矩阵、向量
另有,张量的学习视频:https://www.bilibili.com/video/BV1iW411f7pS?from=search&seid=12445973374879661401
}
4)TransH、HolE(普通向量空间)、ANALOGY(关系映射矩阵)……
1.1.2 复向量空间
实体及关系都由复空间表示,例如head可分为实部Re(h)和虚部Im(h),h=Re(h)+iIm(h),通过这种方式可获得对称与反对称关系。
1)ComplEx:用埃尔米特内积获取关系、头结点和尾结点的共轭
2)RotatE:受欧拉恒等式启发,提出旋转模型,将关系看作头结点在复空间中到尾结点的旋转量,尾结点的值等于头结点和关系的哈德马乘积
3)*QuatE:将虚部扩展为三个形成超复空间,用四元数内积(如汉密尔顿内积)计算尾结点
1.1.3 高斯空间
1)KG2E:将实体和关系嵌入一个多维的正态分布空间,其中h~N(μ,Σ),t~N(μt,Σt),r=t-h~N(μt-μh,Σt+Σh),μ表示各自的期望值,协方差矩阵Σ表示不确定性。
2)TransG:与1)类似,但r=t-h~N(μt-μh,(σ+ σ)E)
1.1.4 流形和群
流形(manifold)是一种由点集及其领域定义的拓朴空间,群(group)是抽象代数中的一种代数结构.
逐点建模存在一些问题:首先,它是病态的,即它的评分方程的数量远远大于实体和关系的数量;其次,这种嵌入方式过于几何严密了。针对上述问题,提出了基于流体的嵌入方式。
1)ManifoldE:基于球体或超平面,其中,球空间采用再生核希尔伯特空间来表示流形函数,而超平面空间则用来交叉嵌入以增强模型。
2)TorusE:通过嵌入一个n维环状空间组成的紧凑李群(Lie group),解决TransE的正则化问题。(将向量空间映射到环状空间)
3)DihEdral:一种保留了二维多边形的二面体对称群
1.2、评分函数
(度量事实的可信度)
评分函数用于度量事实的可信度,在基于能量的学习框架中也称为能量函数。
有两种主要的评分函数:
1)基于距离:h + r ≈ t 图(a) 各表示空间所选用的距离评分函数有所不同,此项待需要用时再具体学习。SE、 TransE、 TransH 、TransR 、TransD、TransA、TransF、ITransF、TransAt、TransMS 、KG2E、ManifoldE ……
2)基于相似度:语义匹配 SME、DistMult、HolE 、 HolEx 、 ANALOGY、 CrossE、TorusE、DihEdral……
1.3 编码模型
通过特定的模型体系结构(包括线性/双线性模型、因子分解模型和神经网络)对实体和关系
的交互进行编码。
线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。
因子分解模型将关系数据分解为低秩矩阵进行表示学习。
神经网络用非线性神经激活和更复杂的网络结构来编码关系数据。几个神经模型如下图所示:
