问题动机
给定一个数据集,训练一种概率模型,再给定一个样本,检测其是否属于正常样本或者异常样本。
高斯分布
异常检测算法

对于每个特征独立的求出一个高斯分布,然后概率相乘即为总概率。
开发和评估异常检测系统
异常检测与监督学习

正样本数量少时使用异常检测,正负样本数量比例差不多时,使用监督学习。
选择使用的功能

如果数据的特征不是高斯,那么可以通过这些转换来进行。
通过创建新的特征来识别某一种样本的异常。
多元高斯分布
- 动机:独立的高斯分布不能捕获特征之间的相关性。

- 多元高斯分布的公式

- 原始模型与多元高斯分布的关系

当大sigma矩阵非主对角线为0时,发生轴对齐特殊情况,即为原始模型(特征之间独立分布,没有关系)。
尽量使用原始特征,手动创建相关特征。如果难以创建,可以考虑使用多元高斯分布来自动捕获特征之间的关系,但是需要m>10n。特征之间如果线性相关,会导致协方差矩阵不可逆。


