KDD 2020 dual-view sequential learning inter-attention intra-attention dynamic external memory history attention memory classification Alibaba

Problem

本文是阿里云团队基于EHR（Electronic Health Record）辅助医疗诊断和用药决策的相关工作。（说白了就是用了一段时间的药，决定下一步用什么药）。

探讨问题是如何建模multi-seq的inter-view interactions。

抽象成算法问题即，在给定不同长度的sequence Attention and Memory-Augmented Networks for Dual-View Sequential Learning - 图1 和时，通过发现两个Sequence之间的关系，来增强对目标的预测。

Method

解决思路：用Attention和MANN（Memory Augmented NeuralNetwork）提取和学习对偶序列信息。
重点解法是，通过 inter-attention （跨sequence的attention机制，把sequence和sequence之间的关联关系进行强化）

结构图如下，属于标准的工业界解法，像multi-head attention啥的，都是非常成熟的。重点关注论文的改进部分（红箭头标出）

Attention(Q, K, V) 中的Q从Seq 1来，K，V从Seq 2来。

Ref：Hybrid computing using a neural network with dynamic external memory

文中提到了DNC：Differentiable Neural Computer

主要用来存放global-knowledge，当你认为所有的task具备一些domain knowledge的时候，可以用，另外在domain/task transfer/fusion的时候，也可以对每个domain/task设置一个memory来存放domain或task所特有的信息。

具体做法是对Self-Attention后的向量和一个矩阵相乘，再做mean-pooling。

为了捕获对象的历史contribution，把历史前k次vector embedding加权记录下来

Attention and Memory-Augmented Networks for Dual-View Sequential Learning - 图4

其中 Attention and Memory-Augmented Networks for Dual-View Sequential Learning - 图5 是历史的权重，等于学到。

在EHR的ICU用药数据集上做了实验，根据病情和用药流程，预估下次用药类型。

DRG是指以出院患者信息为依据，综合考虑患者的主要诊断和主要治疗方式，结合个体体征如年龄、并发症和伴随病，将疾病的复杂程度和费用相似的病例分到同一个(DRG)组中，从而让不同强度和复杂程度的医疗服务之间有了客观对比依据。

DRG包含两个序列：诊断序列和治疗序列，对病患进行DRG分组。

两个Sequence的整合挺不错，可以考虑扩展到Multi-Sequence、Hierarchical-Sequence、Cross Domain/Task Sequence的协同学习。