异构网络

异构信息网络.png

同质网络:了解异构网络之前需要先了解什么是同质网络。所谓同质网络即网络中结点都是同一类型主体,链接方式也是相同的。比如论文,论文之间链接为引用,这就构成了一个简单的同质网络。

异构网络:一个异构网络是由多种对象节点与不同类型链接构成的网络,也可看做是多个不同同质网络所结合而成。比如论文,作者,会议,学术名词构成的一个异构网络。

聚类与排序

聚类与排序

RankClus

RankClus:排序与聚类相互加强:更好聚类可从排序中获得,排序范围又从聚类习得

RankClus.png

启发式:排序分数可以在不同类型的主体间通过网络进行传播

  1. 高排名的作者发布高排名论文在排名较高的会议或期刊:异构信息网络 - 图3
  2. 顶级会议或期刊吸引高排名作者发高排名论文:异构信息网络 - 图4
  3. 作者的排名受与他合作的作者的论文排名影响:异构信息网络 - 图5
  4. 所分析网络领域的其他特性(由于本例基于DBLP,就先用上3个)

算法

  1. 初始化:随机聚类
  2. 迭代://EM框架
  3. 排序,每个主体的排名由每个子类的每个子网络影响
  4. 生成新的目标主体参数
  5. 调整聚类
  6. 终止:直到变化<阈值

NetClus

NetClus:把一个网络分割成一个个子网络,如下图,DBLP数据集切分为Database、Hardware、Theory…
NetClus.png

  1. 初始化:为目标主体生成初始分区和初始网络聚类簇
  2. 迭代://EM框架
  3. 对每一个网络聚类簇构建基于排序的概率生成模型
  4. 计算每个目标主体的后验概率
  5. 根据后验概率调整每个簇类
  6. 终止:簇类变化不大

DBLP为例:异构信息网络 - 图7,其中权重异构信息网络 - 图8为节点异构信息网络 - 图9异构信息网络 - 图10的链接。异构信息网络 - 图11,作者、会议、论文、词汇。

异构信息网络 - 图12

Ranking:异构信息网络 - 图13。对于DBLP来说即:

异构信息网络 - 图14
异构信息网络 - 图15
异构信息网络 - 图16

分类与预测

异构网络分类

分类与预测.png

GNetMine

GNetMine:这里再介绍一篇孙怡舟的工作,为啥老介绍她的论文,没办法,毕竟是异父异母同门的亲学姐,韩和她合著的,课上1/5都有她的贡献。嗯…借机膜一下。GNetMine利用异构网络信息传递性,基于以下两启发式::

  1. 两个主体异构信息网络 - 图18异构信息网络 - 图19预测结果同属于类别异构信息网络 - 图20的话,他们应当相似异构信息网络 - 图21
  2. 已知类别的数据我们模型的预测结果应该与事实一致或相似

GNetMine.png

  1. 建立异构信息网络 - 图23(节点类型)个异构信息网络 - 图24矩阵,比如上图,异构信息网络 - 图25为每个类型的元素数,10个作者、50篇论文等,异构信息网络 - 图26为我们要分的类别,Data Ming、Database两类则异构信息网络 - 图27异构信息网络 - 图28(作者、论文、会议、名词)。训练样本在概率矩阵中对应的位置的值为1,剩余样本全部为0,即异构信息网络 - 图29异构信息网络 - 图30
  2. 基于异构信息网络 - 图31计算异构信息网络 - 图32。其中,异构信息网络 - 图33为第异构信息网络 - 图34异构信息网络 - 图35类型主体可能类别的向量矩阵;异构信息网络 - 图36,一个作者可以写多篇论文,一篇论文可以由多个作者合著,这里异构信息网络 - 图37是关系图比如作者-论文各为行列,对应即1不对应即0,矩阵异构信息网络 - 图38就是标准化后的矩阵,同理可得异构信息网络 - 图39,我就不展开了;参数方面,异构信息网络 - 图40调节不同主体比如论文-作者链接信息传递,异构信息网络 - 图41代表是作者之间、论文之间同节点类型链接信息传递,异构信息网络 - 图42调节Ground Truth权重。
  3. 重复第2.步直到收敛后,各节点对应的向量中值最高维度对应的类别即预测类别。

RankClass

RankClass:上面提到的GNetMine将每个节点看作相同影响力,RankClass加了Rank部分,调节每个节点的影响力,比如和数据挖掘领域大佬相连,传递过去的属于数据挖掘这个类别的信息,要比像我这样数据挖掘领域小白相连传递过去的类别信息要高得多。

异构信息网络 - 图43

关联预测

Relationship Prediction vs. Link Prediction

在同质网络中的关联预测即连接预测同质连接预测.png

异构网络中因为主体类型不同异构连接预测1.png或者路径不同异构连接预测2.png

PathPredict

PathPredict:这个算法是做链接预测,比如两个人近五年内会不会合著论文,通过异构网络中不同的Meta-path,基于逻辑回归进行预测。这篇文章预测的A-P-A路径链接预测,即两个人会不会合著论文,当然也可以进行其他Meta-path的链接预测。

PathPredict.png

这篇论文还有一大探索就是基于不同问题的路径影响重要程度的研究,发现学术领域中社交因素相关的路径重要度更高。算法模型从4809个候选人中准确找到了42个裴健教授在03-09年有首次合作的人,可谓十分优秀。

PathPredict1.png

PathPredict_When

PathPredict_When:上一篇链接预测判断两个人会不会合作,这一篇是判断什么时候合作。

PathPredict_When.png

基于异构的推荐

异构信息网络 - 图50
异构信息网络 - 图51异构信息网络 - 图52

ClusCite

给定一原稿(标题,简要或目录)及其属性(作者,目标会议或期刊),推荐一系列高质量引用文献

ClusCite.png

其他数据挖掘

动态网络

动态信息网络.png

角色发掘

比如通过军中的指令发布,找到将军,团长,士兵角色…像节点重要度问题,很多算法是基于节点的出入度进行计算。但现实中,需要引入网络全局结构信息做角色挖掘,比如马云只需要与各事业部总裁对接即可,在阿里巴巴公司管理网络里,可能出入度并没有中层领导的多,但是论节点影响力或重要度,马云是要更高的。根据输入的信息网络(可能是同构),输出一颗含各主体的树(或森林),比如下图,根据发paper信息,找到导师与学生等。

角色挖掘.png

数据清洗

DBLP的paper有好多重名的作者,比如叫“Wei Wang”的就有好几个,利用异构网络对他们进行区分
数据清洗.png

集合拓展

想通过异构网络解决问题:给予一些种子,找到其相似实体。比如给{red, blue, green} -> all colors,但是给orange -> color or fruits?
集合拓展.png

Source

https://github.com/chmx0929/UIUCclasses/tree/master/512DataMiningPrinciples