Percentiles Bucket Aggregation(百分数桶聚合)

警告

此功能是实验性的,可能会在未来的版本中完全更改或删除。Elastic将采取最大的努力来解决任何的问题,但是实验功能不受SLA官方功能的支持。

同级管道聚合,它计算同级聚合中指定度量的所有桶的百分位数。指定度量必须是数字,并且同级聚合必须是多桶聚合。

Syntax(语法)

百分数聚合看起来像这样:

  1. {
  2. "percentiles_bucket": {
  3. "buckets_path": "the_sum"
  4. }
  5. }

Table 8. sum_bucket Parameters(Table 8. sum_bucket参数)

参数名称 描述 是否必要 默认值
buckets_path 我们希望找到的数据的桶的路径(相关详细信息,请参阅”buckets_path Syntax”一节) 必须
gap_policy 在数据中找到差异时应用的策略(相关详情,请参阅“Dealing with gaps in the data”一节) 可选 skip
format 应用于此聚合的输出值的格式 可选 null
percents 要计算的百分数列表 可选 [ 1, 5, 25, 50, 75, 95, 99 ]

以下代码计算每月sales桶总数的百分数:

  1. POST /sales/_search
  2. {
  3. "size": 0,
  4. "aggs" : {
  5. "sales_per_month" : {
  6. "date_histogram" : {
  7. "field" : "date",
  8. "interval" : "month"
  9. },
  10. "aggs": {
  11. "sales": {
  12. "sum": {
  13. "field": "price"
  14. }
  15. }
  16. }
  17. },
  18. "percentiles_monthly_sales": {
  19. "percentiles_bucket": {
  20. "buckets_path": "sales_per_month>sales", #1
  21. "percents": [ 25.0, 50.0, 75.0 ] #2
  22. }
  23. }
  24. }
  25. }

| 1 | buckets_path指示这个为percentiles_bucket聚合,我们希望在sales_per_month数据直方图中计算sales聚合的统计数据。 | | 2 | percents指定了我们希望计算的百分数,在这里,是第25,第50和第75百分数。 |

以下是响应信息:

  1. {
  2. "took": 11,
  3. "timed_out": false,
  4. "_shards": ...,
  5. "hits": ...,
  6. "aggregations": {
  7. "sales_per_month": {
  8. "buckets": [
  9. {
  10. "key_as_string": "2015/01/01 00:00:00",
  11. "key": 1420070400000,
  12. "doc_count": 3,
  13. "sales": {
  14. "value": 550.0
  15. }
  16. },
  17. {
  18. "key_as_string": "2015/02/01 00:00:00",
  19. "key": 1422748800000,
  20. "doc_count": 2,
  21. "sales": {
  22. "value": 60.0
  23. }
  24. },
  25. {
  26. "key_as_string": "2015/03/01 00:00:00",
  27. "key": 1425168000000,
  28. "doc_count": 2,
  29. "sales": {
  30. "value": 375.0
  31. }
  32. }
  33. ]
  34. },
  35. "percentiles_monthly_sales": {
  36. "values" : {
  37. "25.0": 375.0,
  38. "50.0": 375.0,
  39. "75.0": 550.0
  40. }
  41. }
  42. }
  43. }

Percentiles_bucket implementation(Percentiles_bucket实现)

百分数桶返回最近输入的数据点,该数据点不大于所请求的百分数;它不会在数据点之间插值。

百分数是精确计算的,不是近似值(与百分数指标不同)。这意味着在丢弃数据之前,实现会在内存中维护一个有序的数据列表来计算百分数。如果你尝试在数百万的数据点中计算一个百分数的percentiles_bucket,可能会遇到内存压力问题。

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-pipeline-percentiles-bucket-aggregation.html(修改该链接为官网对应的链接)

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10030385(修改该链接为 ApacheCN 对应的译文链接)

贡献者 : 曾少峰ApacheCNApache中文网