模拟 HTTP 故障

本文档介绍如何在 Chaos Mesh 中通过创建 HTTPChaos 实验模拟 HTTP 故障。

HTTPChaos 简介

HTTPChaos 是 Chaos Mesh 中的一种故障类型。通过创建 HTTPChaos 实验,你可以模拟 HTTP 服务端在请求或响应过程中发生故障的场景。目前,HTTPChaos 支持模拟以下故障类型:

  • abort:中断服务端的连接
  • delay:为目标过程注入延迟
  • replace:替换请求报文或者响应报文的部分内容
  • patch:给请求报文或响应报文添加额外内容

HTTPChaos 支持多种类型故障的组合。在创建 HTTPChaos 实验时,如果同时配置了多种 HTTP 故障类型,实验运行时注入故障的优先级(顺序)固定为 abort -> delay -> replace -> patch。其中 abort 故障会导致短路,直接中断此次连接。

关于 HTTPChaos 详细的配置介绍,请参见字段说明部分。

注意事项

在注入 HTTPChaos 相关故障之前,请注意以下事项:

  • 确保目标 Pod 上没有运行 Chaos Mesh 的 Control Manager。
  • 确保目标服务禁用了 HTTPS 访问,因为 HTTPChaos 暂不支持注入 HTTPS 连接。
  • 为使 HTTPChaos 注入生效,尽量避免复用客户端的 TCP socket。因为在注入故障前建立的 TCP socket 上进行 HTTP 请求不受 HTTPChaos 影响。
  • 在生产环境下谨慎使用非幂等语义请求(例如大多数 POST 请求)。若使用了这类请求,注入故障后可能无法通过重复请求使目标服务恢复正常状态。

创建实验

Chaos Mesh 目前仅支持使用 YAML 配置文件创建 HTTPChaos 实验。在 YAML 配置文件中,你可以模拟一种 HTTP 故障类型,也可以模拟多种 HTTP 故障的组合。

abort 示例

  1. 将实验配置写入到 http-abort-failure.yaml 文件中,内容示例如下:

    1. apiVersion: chaos-mesh.org/v1alpha1
    2. kind: HTTPChaos
    3. metadata:
    4. name: test-http-chaos
    5. spec:
    6. mode: all
    7. selector:
    8. labelSelectors:
    9. app: nginx
    10. target: Request
    11. port: 80
    12. method: GET
    13. path: /api
    14. abort: true
    15. duration: 5m
    16. scheduler:
    17. cron: '@every 10m'

依据此配置示例,Chaos Mesh 将每 10 分钟向指定的 Pod 中注入 abort 故障 5 分钟,故障注入期间该 Pod 的 80 端口 /api 路径的 GET 请求会被中断。

  1. 使用 kubectl 创建实验,命令如下:
  1. kubectl apply -f ./http-abort-failure.yaml

其它故障组合示例

  1. 将实验配置写入到 http-failure.yaml 文件中,内容示例如下:

    1. apiVersion: chaos-mesh.org/v1alpha1
    2. kind: HTTPChaos
    3. metadata:
    4. name: test-http-chaos
    5. spec:
    6. mode: all
    7. selector:
    8. labelSelectors:
    9. app: nginx
    10. target: Request
    11. port: 80
    12. method: GET
    13. path: /api/*
    14. delay: 10s
    15. replace:
    16. path: /api/v2/
    17. method: DELETE
    18. patch:
    19. headers:
    20. - ['Token', '<one token>']
    21. - ['Token', '<another token>']
    22. body:
    23. type: JSON
    24. value: '{"foo": "bar"}'
    25. duration: 5m
    26. scheduler:
    27. cron: '@every 10m'

依据此配置示例,Chaos Mesh 将向指定的 Pod 中分别注入 delay 故障、replace 故障、patch 故障。

  1. 使用 kubectl 创建实验,命令如下:

    1. kubectl apply -f ./http-failure.yaml

字段说明

通用字段说明

通用字段指故障注入的目标过程为 Request 或 Response 时均有意义的字段。

参数 类型 说明 默认值 是否必填 示例
mode string 指定实验的运行方式,可选择的方式包括:one(表示随机选出一个符合条件的 Pod)、all(表示选出所有符合条件的 Pod)、fixed(表示选出指定数量且符合条件的 Pod)、fixed-percent(表示选出占符合条件的 Pod 中指定百分比的 Pod)、random-max-percent(表示选出占符合条件的 Pod 中不超过指定百分比的 Pod) one
value string 取决于 mode 的取值,为 mode 提供参数 2
target string 指定故障注入的目标过程为 RequestResponse,需要同时配置target 相关的字段 Request
port int32 目标服务监听的 TCP 端口 80
method string 目标请求的 HTTP method 默认对所有方法生效 GET
path string 目标请求的 URI 路径,支持通配符 默认对所有路径生效 /api/*
request_headers map[string]string 目标请求的请求头匹配 默认对所有请求生效 Content-Type: application/json
abort bool 是否注入连接中断故障 false true
delay string 指定延迟故障的时间 0 10s
replace.header map[string]string 指定请求头或响应头替换故障中用于替换的键值对 Content-Type: application/xml
replace.body []byte 指定请求体或响应体替换故障的内容(base64 编码) eyJmb28iOiAiYmFyIn0K
patch.header [][]string 指定请求头或响应头附加故障中附加的键值对 - [Set-Cookie, one cookie]
patch.body.type string 指定请求体或响应体附加故障的类型,目前只支持 JSON JSON
patch.body.value string 指定请求体或响应体附加故障的故障内容 “{“foo”: “bar”}”
duration string 指定具体实验的持续时间 30s
scheduler string 指定具体实验的运行时间调度规则 5 * * * *

target 相关的字段说明

Request 专用字段说明

Request 专用字段是指故障注入的目标过程为 Request (即 target 设置为 Request) 时有意义的字段。

参数 类型 说明 默认值 是否必填 示例
replace.path string 指定 URI 路径替换内容 /api/v2/
replace.method` string 指定请求 HTTP 方法的替换内容 DELETE
replace.queries` map[string]string 指定 URI query 的替换键值对 foo: bar
patch.queries` [][]string 指定 URI query 附加故障中附加的键值对 - [foo, bar]

Response 专用字段说明

Response 专用字段是指故障注入的目标过程为 Response (即 target 设置为 Response) 时有意义的字段。

参数 类型 说明 默认值 是否必填 示例
code int32 目标响应的状态码 默认对所有状态码生效 200
response_headers map[string]string 目标响应的响应头匹配 默认对所有响应生效 Content-Type: application/json
replace.code int32 指定响应状态码的替换内容 404

本地调试

如果你不确定某种故障的效果,也可以使用 rs-tproxy 在本地测试相应功能。Chaos Mesh 同样使用 rs-tproxy 实现 HTTPChaos。