我们有个三角因子模型：大数据（分布式）、精确性和实时性。
我们需要选择其中两项：
精确 + 实时
数据可以存入单台机器的内存之中，我们可以随心所欲，使用任何想用的算法。结果会 100% 精确，响应会相对快速。
大数据 + 精确
传统的 Hadoop。可以处理 PB 级的数据并且为我们提供精确的答案，但它可能需要几周的时间才能为我们提供这个答案。
大数据 + 实时
近似算法为我们提供准确但不精确的结果。
Elasticsearch 目前支持两种近似算法（ cardinality 和 percentiles ）。它们会提供准确但不是 100% 精确的结果。以牺牲一点小小的估算错误为代价，这些算法可以为我们换来高速的执行效率和极小的内存消耗。

统计去重后的数量

Elasticsearch 提供的首个近似聚合是 cardinality （注：基数）度量。它提供一个字段的基数，即该字段的 distinct 或者 unique 值的数目。你可能会对 SQL 形式比较熟悉：

SELECT COUNT(DISTINCT color)
FROM cars

百分位计算

Elasticsearch 提供的另外一个近似度量就是 percentiles 百分位数度量。百分位数展现某以具体百分比下观察到的数值。例如，第95个百分位上的数值，是高于 95% 的数据总和。

分布式和大数据

4.8 近似聚合

统计去重后的数量

百分位计算