核心

  • 快速解决因为维护引起的性能变化问题,提出了PRISM,一个能及时检测出由维护引起的性能变化的小工具
  • 主要是自动的识别服务或性能指标有没有任何统计意义上的变化

挑战

  • 很难构建去比较的baseline,可以是维护前几分钟,几个小时,甚至几天,几周
  • 数据各种各样(周期性,无周期性,节假日等),baseline也可能受到污染
  • 数据量十分庞大
  • 空间范围的影响

方法与贡献

  • 使用历史数据构建baseline,原型中使用维护前30天的数据
  • 提出Multiscale Robust Local Subspace(MRLS)算法来检测异常
  • PRISM能自动,系统的挖掘各种各样的性能指标数据
  • PRISM使用网络组建的层级结构和拓扑信息来构建影响力组

PRISM设计

image.pngimage.png

  • 影响组判定(Influence Group Identification):对于一个组件,只把跟它同一等级和比他高一等级的组件划进影响组
  • 创建性能时序数据(Performance Time-series Creation):将原始数据划分成n个相同的时间桶,标注时间戳

    异常检测

  • 基于SVD或PCA的subspace algorithms

  • Subspace Algorithms using SVD
    • 检测目标是,维护前后的性能数据,有无显著变化
    • 构建一个矩阵X,每一列代表一天,每一行代表一个时间窗口(time-bin)内的数据比如5分钟
    • 通过SVD求出矩阵XR,再使用高斯分布阈值判断是否异常
  • MRLS
    • 讲求解的部分,不翻译了