KDD 2020 unsupervised feature selection unsupervised-attributed network block model UC-Davis

Problem

本文讨论了的特征选择问题:对于有Block Model Guided Unsupervised Feature Selection - 图1个数据点,Block Model Guided Unsupervised Feature Selection - 图2个feature维度的数据集Block Model Guided Unsupervised Feature Selection - 图3,并且有一张由Block Model Guided Unsupervised Feature Selection - 图4个数据点按照相似度关系构成的graph Block Model Guided Unsupervised Feature Selection - 图5,如何进行无监督的特征选择。

Method

本文提出的方法其本质是引入Block Model

  1. 首先通过类似矩阵分解的方式,找到Block Model Guided Unsupervised Feature Selection - 图6,其中Block Model Guided Unsupervised Feature Selection - 图7是Block Model,Block Model Guided Unsupervised Feature Selection - 图8是block的核(下文介绍Block Model)
  2. 然后找到特征子集Block Model Guided Unsupervised Feature Selection - 图9,产出近似矩阵Block Model Guided Unsupervised Feature Selection - 图10
  3. 让近似矩阵Block Model Guided Unsupervised Feature Selection - 图11满足Block Model Guided Unsupervised Feature Selection - 图12Block Model Guided Unsupervised Feature Selection - 图13所约束的block,从而优化Block Model Guided Unsupervised Feature Selection - 图14进行特征选择。

Block Model是一个Block Model Guided Unsupervised Feature Selection - 图15矩阵,每个block占1维,表示数据是否在这个block内,Block Model Guided Unsupervised Feature Selection - 图16个数据,Block Model Guided Unsupervised Feature Selection - 图17个block,堆叠后构成这个Block Model Guided Unsupervised Feature Selection - 图18的矩阵。
在矩阵处理中,block model有点类似于多视角的二分类,或者是MMOE中多个Expert的味道,是从多个视角表示数据的一种方法。

这样问题就可以转化为几个矩阵逼近问题了, 我们的目标就是最小化几个矩阵逼近的loss加权求和。公式看原文,这里就不贴了。

Experiment

评估在数据集上选Block Model Guided Unsupervised Feature Selection - 图19个feature时,同一个评估模型在这写feature上的评估准确度。

Conclusion

  • 无监督情况下,想要做特征选择,基本还是要依赖节点关系,那么基于图/矩阵的分解就是比较好的方法。
  • Block Model是一个比较新颖的方法,有点像是MMOE的expert概念反哺矩阵分解界。(牢记矩阵分解是多项式线性变换,DNN是非线性变换,所以两边学术界的新东西都可以互通的,也必然可以找到一一对应的新思路)。
  • 但是,你既然都有一个评估模型和label了来评估特征选择好坏了,为啥不直接用监督呢?可能比较好水吧。