实验方面:
MIMIC4数据集已经清洗完毕并进行了初次运行,模型能明显超过baseline,目前为了求标准差正在多次训练。找ddi和同分异构体的case study没有成功。
在修改并尝试运行graphcl代码,跑得很慢。
论文方面:
粗略阅读《CLUSTER-BASED FEATURE IMPORTANCE LEARNING FOR ELECTRONIC HEALTH RECORD TIME-SERIES》,医疗方面做病人聚类的,都是很常规的操作,复杂点的就是数据处理,感觉意义不大。
阅读论文《EQUIVARIANT SUBGRAPH AGGREGATION NETWORKS》,ICLR 2022 spotlight。
基本思想就是为了突破GNN的1-WL test上限,将图划分成子图进行处理。思想挺别致,模型不难,重点在理论分析部分。先大致介绍一下模型框架:
模型名叫DSS-GNN,输入是很多subgraph,是原图去掉一条边,一个点或ego版本,经过equivariant layer,再经过Readout就得到一个graph的表示。右边是layer 的设计。
i代表当前的subgraph,m是子图的个数,L1和L2就是encoder。图很清晰。
论文还对WL test进行了个等价的改造,叫DSS-WL test。在利用邻居进行更新时,子图中的节点v的颜色用这个式子来更新:,N代表v的邻居的颜色,C代表所有子图中v节点的颜色,M是根据原图的连通找到的所有子图中v的邻居的颜色。