问题定义与介绍
- 公有云中的多层级服务的根因定位
- 提出的方法:
- 一个数据收集子系统:
- 不间断的运行,来捕获多层服务中组件间的依赖关系
- 收集必要的指标数据
- 根因定位子系统:
- similarity score
- 随机游走
- 一个数据收集子系统:
- 贡献
- 提出了一个方法来定位异常
- 提出了一个非侵入性的方法来捕获多层组件间复杂的依赖关系
系统设计
- request tracing of multitier services
- VCG(VM Communication Graph) construction
- APG(Anomaly Propagation Graph) construction
根因定位
- 本文所认为的异常是:查询响应很慢,以至用户不能忍受,认为是一个异常
- 基本假设:根因VM的根因指标与响应时间存在相关关系
- 但相关度越高也不一定就是根因,如,VM6的性能跟TA的请求高度相关,但VM6跟TA的请求无关,但属于TA的APG,因此,VM6影响TA请求的方式只能是跟VM1进行资源竞争,此时必然VM6跟VM1的某些性能指标同时高
本质上还是一个用某个方法构建图,然后在图上检测的方法(随机游走)