KDD 2020 unsupervised feature selection unsupervised-attributed network block model UC-Davis

Problem

本文讨论了的特征选择问题：对于有 Block Model Guided Unsupervised Feature Selection - 图1 个数据点，个feature维度的数据集，并且有一张由个数据点按照相似度关系构成的graph ，如何进行无监督的特征选择。

Method

本文提出的方法其本质是引入Block Model

首先通过类似矩阵分解的方式，找到，其中是Block Model，是block的核（下文介绍Block Model）
然后找到特征子集，产出近似矩阵
让近似矩阵满足和所约束的block，从而优化进行特征选择。

Block Model是一个 Block Model Guided Unsupervised Feature Selection - 图15 矩阵，每个block占1维，表示数据是否在这个block内，个数据，个block，堆叠后构成这个的矩阵。
在矩阵处理中，block model有点类似于多视角的二分类，或者是MMOE中多个Expert的味道，是从多个视角表示数据的一种方法。

这样问题就可以转化为几个矩阵逼近问题了，我们的目标就是最小化几个矩阵逼近的loss加权求和。公式看原文，这里就不贴了。

Experiment

评估在数据集上选 Block Model Guided Unsupervised Feature Selection - 图19 个feature时，同一个评估模型在这写feature上的评估准确度。

Conclusion

无监督情况下，想要做特征选择，基本还是要依赖节点关系，那么基于图/矩阵的分解就是比较好的方法。
Block Model是一个比较新颖的方法，有点像是MMOE的expert概念反哺矩阵分解界。（牢记矩阵分解是多项式线性变换，DNN是非线性变换，所以两边学术界的新东西都可以互通的，也必然可以找到一一对应的新思路）。
但是，你既然都有一个评估模型和label了来评估特征选择好坏了，为啥不直接用监督呢？~~可能比较好水吧。~~