核心
- 快速解决因为维护引起的性能变化问题,提出了PRISM,一个能及时检测出由维护引起的性能变化的小工具
- 主要是自动的识别服务或性能指标有没有任何统计意义上的变化
挑战
- 很难构建去比较的baseline,可以是维护前几分钟,几个小时,甚至几天,几周
- 数据各种各样(周期性,无周期性,节假日等),baseline也可能受到污染
- 数据量十分庞大
- 空间范围的影响
方法与贡献
- 使用历史数据构建baseline,原型中使用维护前30天的数据
- 提出Multiscale Robust Local Subspace(MRLS)算法来检测异常
- PRISM能自动,系统的挖掘各种各样的性能指标数据
- PRISM使用网络组建的层级结构和拓扑信息来构建影响力组
PRISM设计
- 影响组判定(Influence Group Identification):对于一个组件,只把跟它同一等级和比他高一等级的组件划进影响组
创建性能时序数据(Performance Time-series Creation):将原始数据划分成n个相同的时间桶,标注时间戳
异常检测
基于SVD或PCA的subspace algorithms
- Subspace Algorithms using SVD
- 检测目标是,维护前后的性能数据,有无显著变化
- 构建一个矩阵X,每一列代表一天,每一行代表一个时间窗口(time-bin)内的数据比如5分钟
- 通过SVD求出矩阵XR,再使用高斯分布阈值判断是否异常
- MRLS
- 讲求解的部分,不翻译了