Derivative Aggregation(导数聚合)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.4/search-aggregations-pipeline-derivative-aggregation.html

译文链接 : Derivative Aggregation(导数聚合)

贡献者 : @苏涛,ApacheCNApache中文网

警告

此功能是实验性的,可能会在将来的版本中完全更改或删除。Elastic将采取最大的努力来解决此问题,但实验功能不受SLA官方功能的支持。

导数管道聚合,其计算父直方图(或日期 - 图形)聚合中指定度量的导数。指定的度量必须是数字,并且必须设置直方图min_doc_count为0(默认为直方图聚合)。

语法

derivative(导数) 聚合结构如下:

  1. "derivative": {
  2. "buckets_path": "the_sum"
  3. }

derivative(导数) 参数如下:

参数名称 描述 是否必填 默认值
buckets_path 想要计算导数值的桶路径,点击 the section called “buckets_path Syntaxedit”查看更多细节 必填
gap_policy 当数据缺口出现时采用的策略,点击the section called “Dealing with gaps in the dataedit”查看更多细节 可选 skip
format 用于规范聚合输出值的格式 可选 null

一级导数

以下代码段计算每月总销售额的导数:

  1. POST /sales/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "sales_per_month" : {
  6. "date_histogram" : {
  7. "field" : "date",
  8. "interval" : "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. },
  16. "sales_deriv": {
  17. "derivative": {
  18. "buckets_path": "sales" #1
  19. }
  20. }
  21. }
  22. }
  23. }
  24. }

| 1 | buckets_path指示这个derivative聚合是想要得到sales_per_month日期直方图聚合中sales聚合值的导数。 |

响应可能如下所示:

  1. {
  2. "took": 11,
  3. "timed_out": false,
  4. "_shards": ...,
  5. "hits": ...,
  6. "aggregations": {
  7. "sales_per_month": {
  8. "buckets": [
  9. {
  10. "key_as_string": "2015/01/01 00:00:00",
  11. "key": 1420070400000,
  12. "doc_count": 3,
  13. "sales": {
  14. "value": 550.0
  15. } #1
  16. },
  17. {
  18. "key_as_string": "2015/02/01 00:00:00",
  19. "key": 1422748800000,
  20. "doc_count": 2,
  21. "sales": {
  22. "value": 60.0
  23. },
  24. "sales_deriv": {
  25. "value": -490.0 #2
  26. }
  27. },
  28. {
  29. "key_as_string": "2015/03/01 00:00:00",
  30. "key": 1425168000000,
  31. "doc_count": 2, #3
  32. "sales": {
  33. "value": 375.0
  34. },
  35. "sales_deriv": {
  36. "value": 315.0
  37. }
  38. }
  39. ]
  40. }
  41. }
  42. }

| 1 | 由于我们至少需要2个数据点来计算导数,因此第一个桶没有值 | | 2 | 导数的单位默认和sales聚合以及父直方图相同。所以在这种情况下,如果价格字段的单位是美元,导数的单位就是美元/月 | | 3 | doc_count表示桶中的文档数 |

二级导数

可以把导数管道聚合链接到另一个管道聚合的结果,计算二级导数。如以下示例所示,它将计算总月销售额的第一和第二阶导数:

  1. POST /sales/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "sales_per_month" : {
  6. "date_histogram" : {
  7. "field" : "date",
  8. "interval" : "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. },
  16. "sales_deriv": {
  17. "derivative": {
  18. "buckets_path": "sales"
  19. }
  20. },
  21. "sales_2nd_deriv": {
  22. "derivative": {
  23. "buckets_path": "sales_deriv" #1
  24. }
  25. }
  26. }
  27. }
  28. }
  29. }

| 1 | 二阶导数的buckets_path指向一阶导数的名称 |

响应可能如下所示:

  1. {
  2. "took": 50,
  3. "timed_out": false,
  4. "_shards": ...,
  5. "hits": ...,
  6. "aggregations": {
  7. "sales_per_month": {
  8. "buckets": [
  9. {
  10. "key_as_string": "2015/01/01 00:00:00",
  11. "key": 1420070400000,
  12. "doc_count": 3,
  13. "sales": {
  14. "value": 550.0
  15. } #1
  16. },
  17. {
  18. "key_as_string": "2015/02/01 00:00:00",
  19. "key": 1422748800000,
  20. "doc_count": 2,
  21. "sales": {
  22. "value": 60.0
  23. },
  24. "sales_deriv": {
  25. "value": -490.0
  26. } #2
  27. },
  28. {
  29. "key_as_string": "2015/03/01 00:00:00",
  30. "key": 1425168000000,
  31. "doc_count": 2,
  32. "sales": {
  33. "value": 375.0
  34. },
  35. "sales_deriv": {
  36. "value": 315.0
  37. },
  38. "sales_2nd_deriv": {
  39. "value": 805.0
  40. }
  41. }
  42. ]
  43. }
  44. }
  45. }

| 1 | 由于我们至少需要2个数据点,所以前两个桶没有二级导数 | | 2 | 一级导数计算二级导数 |

Units(单位)

导数聚合允许指定导数值的单位。这将在响应normalized_value中返回一个额外的字段,汇报在X轴单位下的导数。在下面的例子中,我们计算出每月销售额的导数,但要求销售的导数按天计算:

  1. POST /sales/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "sales_per_month" : {
  6. "date_histogram" : {
  7. "field" : "date",
  8. "interval" : "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. },
  16. "sales_deriv": {
  17. "derivative": {
  18. "buckets_path": "sales",
  19. "unit": "day" #1
  20. }
  21. }
  22. }
  23. }
  24. }
  25. }

| 1 | unit指定用于导数计算的X轴的单位 |

响应可能如下所示:

  1. {
  2. "took": 50,
  3. "timed_out": false,
  4. "_shards": ...,
  5. "hits": ...,
  6. "aggregations": {
  7. "sales_per_month": {
  8. "buckets": [
  9. {
  10. "key_as_string": "2015/01/01 00:00:00",
  11. "key": 1420070400000,
  12. "doc_count": 3,
  13. "sales": {
  14. "value": 550.0
  15. } #1
  16. },
  17. {
  18. "key_as_string": "2015/02/01 00:00:00",
  19. "key": 1422748800000,
  20. "doc_count": 2,
  21. "sales": {
  22. "value": 60.0
  23. },
  24. "sales_deriv": {
  25. "value": -490.0, #2
  26. "normalized_value": -15.806451612903226 #3
  27. }
  28. },
  29. {
  30. "key_as_string": "2015/03/01 00:00:00",
  31. "key": 1425168000000,
  32. "doc_count": 2,
  33. "sales": {
  34. "value": 375.0
  35. },
  36. "sales_deriv": {
  37. "value": 315.0,
  38. "normalized_value": 11.25
  39. }
  40. }
  41. ]
  42. }
  43. }
  44. }

| 1,2 | value值是原单位:按月 | | 3 | normalized_value值是请求的单位:按天 |