KDD 2020 unsupervised feature selection unsupervised-attributed network block model UC-Davis
Problem
本文讨论了的特征选择问题:对于有个数据点,
个feature维度的数据集
,并且有一张由
个数据点按照相似度关系构成的graph
,如何进行无监督的特征选择。
Method
本文提出的方法其本质是引入Block Model
- 首先通过类似矩阵分解的方式,找到
,其中
是Block Model,
是block的核(下文介绍Block Model)
- 然后找到特征子集
,产出近似矩阵
- 让近似矩阵
满足
和
所约束的block,从而优化
进行特征选择。
Block Model是一个矩阵,每个block占1维,表示数据是否在这个block内,
个数据,
个block,堆叠后构成这个
的矩阵。
在矩阵处理中,block model有点类似于多视角的二分类,或者是MMOE中多个Expert的味道,是从多个视角表示数据的一种方法。
这样问题就可以转化为几个矩阵逼近问题了, 我们的目标就是最小化几个矩阵逼近的loss加权求和。公式看原文,这里就不贴了。
Experiment
评估在数据集上选个feature时,同一个评估模型在这写feature上的评估准确度。
Conclusion
- 无监督情况下,想要做特征选择,基本还是要依赖节点关系,那么基于图/矩阵的分解就是比较好的方法。
- Block Model是一个比较新颖的方法,有点像是MMOE的expert概念反哺矩阵分解界。(牢记矩阵分解是多项式线性变换,DNN是非线性变换,所以两边学术界的新东西都可以互通的,也必然可以找到一一对应的新思路)。
- 但是,你既然都有一个评估模型和label了来评估特征选择好坏了,为啥不直接用监督呢?
可能比较好水吧。
