- 内存无法加载:部分读取+分治
- 分治并不是直接将文件划分为多个,而是需要有一定的划分策略:
- 元素排序划分,数值直接排序,字符串就字典序。
- hash散列取模划分,用于元素无法直接排序的场景,如ip、文章标题等。
- 最大最高最热门(一个):Max
- 最大最高最热门(K个):大小顶堆
- 是否存在:位图(setbit,getbit)
- 数值类型的元素可以本身做下标
- 其他类型hash后做下标。
- 一般位图只能标识二元信息,如果有更多信息,可以用优化位图,相应用多个bit来描述。
- 基数统计:
- hll:有误差
- 位图(bitcount),别玩位图也可用于统计基数。