问题定义与介绍

  • 公有云中的多层级服务的根因定位
  • 提出的方法:
    • 一个数据收集子系统:
      • 不间断的运行,来捕获多层服务中组件间的依赖关系
      • 收集必要的指标数据
    • 根因定位子系统:
      • similarity score
      • 随机游走
  • 贡献
    • 提出了一个方法来定位异常
    • 提出了一个非侵入性的方法来捕获多层组件间复杂的依赖关系

image.png

系统设计

  • request tracing of multitier services
  • VCG(VM Communication Graph) construction
  • APG(Anomaly Propagation Graph) construction

image.png

根因定位

  • 本文所认为的异常是:查询响应很慢,以至用户不能忍受,认为是一个异常
  • 基本假设:根因VM的根因指标与响应时间存在相关关系
    • 但相关度越高也不一定就是根因,如,VM6的性能跟TA的请求高度相关,但VM6跟TA的请求无关,但属于TA的APG,因此,VM6影响TA请求的方式只能是跟VM1进行资源竞争,此时必然VM6跟VM1的某些性能指标同时高

本质上还是一个用某个方法构建图,然后在图上检测的方法(随机游走)