CoNEXT11: Rapid Detection of Maintenance Induced Changes in Service Performance

浏览 104 扫码分享 2023-11-21 23:45:57

核心
挑战
方法与贡献
PRISM设计
异常检测

核心

快速解决因为维护引起的性能变化问题，提出了PRISM，一个能及时检测出由维护引起的性能变化的小工具
主要是自动的识别服务或性能指标有没有任何统计意义上的变化

挑战

很难构建去比较的baseline，可以是维护前几分钟，几个小时，甚至几天，几周
数据各种各样（周期性，无周期性，节假日等），baseline也可能受到污染
数据量十分庞大
空间范围的影响

方法与贡献

使用历史数据构建baseline，原型中使用维护前30天的数据
提出Multiscale Robust Local Subspace(MRLS)算法来检测异常
PRISM能自动，系统的挖掘各种各样的性能指标数据
PRISM使用网络组建的层级结构和拓扑信息来构建影响力组

PRISM设计

影响组判定(Influence Group Identification)：对于一个组件，只把跟它同一等级和比他高一等级的组件划进影响组
创建性能时序数据(Performance Time-series Creation)：将原始数据划分成n个相同的时间桶，标注时间戳

异常检测
基于SVD或PCA的subspace algorithms
Subspace Algorithms using SVD
- 检测目标是，维护前后的性能数据，有无显著变化
- 构建一个矩阵X，每一列代表一天，每一行代表一个时间窗口(time-bin)内的数据比如5分钟
- 通过SVD求出矩阵XR，再使用高斯分布阈值判断是否异常
MRLS
- 讲求解的部分，不翻译了

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录