问题动机

给定一个数据集,训练一种概率模型,再给定一个样本,检测其是否属于正常样本或者异常样本。
image.png

高斯分布

image.png
sigma代表宽度的一半

异常检测算法

image.png
对于每个特征独立的求出一个高斯分布,然后概率相乘即为总概率。

开发和评估异常检测系统

image.png
image.png

异常检测与监督学习

image.png
正样本数量少时使用异常检测,正负样本数量比例差不多时,使用监督学习。

选择使用的功能

image.png
如果数据的特征不是高斯,那么可以通过这些转换来进行。
image.png
通过创建新的特征来识别某一种样本的异常。

多元高斯分布

  1. 动机:独立的高斯分布不能捕获特征之间的相关性。

image.png

  1. 多元高斯分布的公式

image.png

  1. 原始模型与多元高斯分布的关系

image.png
当大sigma矩阵非主对角线为0时,发生轴对齐特殊情况,即为原始模型(特征之间独立分布,没有关系)。
image.png
尽量使用原始特征,手动创建相关特征。如果难以创建,可以考虑使用多元高斯分布来自动捕获特征之间的关系,但是需要m>10n。特征之间如果线性相关,会导致协方差矩阵不可逆。