es概念 - Filter过滤机制 - 《elasticsearch》

解析： date举例：倒排索引列表，过滤date为2020-02-02（ﬁlter：2020-02-02）。去倒排索引中查找，发现2020-02-02对应的document list是doc2、doc3。

解析：

使用找到的document list，构建一个bitset（二进制数组，用来表示一个document对应一个ﬁlter 条件是否匹配；匹配为1，不匹配为0）。
为什么使用bitset：尽可能用简单的数据结构去实现复杂的功能，可以节省内存空间、提升性能。
由上步的document list可以得出该ﬁlter条件对应的bitset为：[0, 1, 1]；代表着doc1不匹配ﬁlter， doc2、doc3匹配ﬁlter。
多个过滤条件时,遍历每个过滤条件对应的bitset，优先从最稀疏的开始搜索，查找满足所有条件的 document

解析：

多个ﬁlter组合查询时，每个ﬁlter条件都会对应一个bitset。
稀疏、密集的判断是通过匹配的多少（即bitset中元素为1的个数）[0, 0, 0, 1, 0, 0] 比较稀疏、[0, 1, 0, 1, 0, 1] 比较密集。
先过滤稀疏的bitset，就可以先过滤掉尽可能多的数据。
遍历所有的bitset、找到匹配所有ﬁlter条件的doc。请求：ﬁlter，postDate=2017-01-01，userID=1； postDate：[0, 0, 1, 1, 0, 0] userID： [0, 1, 0, 1, 0, 1] 遍历完两个bitset之后，找到的匹配所有条件的doc，就是doc4。
将得到的document作为结果返回给client。

caching bitset，跟踪query，在最近256个query中超过一定次数的过滤条件，缓存其bitset。对于小segment（<1000，或<3%），不缓存bitset

解析：

比如postDate=2020-01-01，[0, 0, 1, 1, 0, 0]；可以缓存在内存中，这样下次如果再有该条件查询时，就不用重新扫描倒排索引，反复生成bitset，可以大幅提升性能。
在最近256个ﬁlter中，有某个ﬁlter超过一定次数，次数不固定，就会自动缓存该ﬁlter对应的 bitset。
ﬁlter针对小segment获取的结果，可以不缓存，segment记录数<1000，或者segment大小 <index总大小的3%（segment数据量很小，此时哪怕是扫描也很快；segment会在后台自动合并，小segment很快就会跟其他小segment合并成大segment，此时缓存没有多大意义，因为 segment很快就会消失）。
ﬁlter比query的好处就在于有caching机制，ﬁlter bitset缓存起来便于下次不用扫描倒排索引。

以后只要是由相同的ﬁlter条件的，会直接使用该过滤条件对应的cached bitset

比如postDate=2020-01-01，[0, 0, 1, 1, 0, 0]；可以缓存在内存中，这样下次如果再有该条件查询时，就不用重新扫描倒排索引，反复生成bitset，可以大幅提升性能。

5. 如果document有新增或修改，那么cached bitset会被自动更新

示例：postDate=2020-01-01，ﬁlter：[0, 0, 1, 0]

新增document，id=5，postDate=2020-01-01；会自动更新到postDate=2020-01-01这个ﬁlter的bitset中，缓存要会进行相应的更新。postDate=2020-01-01的bitset：[0, 0, 1, 0, 1]。
修改document，id=1，postDate=2019-01-31，修改为postDate=2020-01-01，此时也会自动更新bitset：[1, 0, 1, 0, 1]。