• 内存无法加载:部分读取+分治
    • 分治并不是直接将文件划分为多个,而是需要有一定的划分策略:
      • 元素排序划分,数值直接排序,字符串就字典序。
      • hash散列取模划分,用于元素无法直接排序的场景,如ip、文章标题等。
    • 最大最高最热门(一个):Max
    • 最大最高最热门(K个):大小顶堆
    • 是否存在:位图(setbit,getbit)
      • 数值类型的元素可以本身做下标
      • 其他类型hash后做下标。
      • 一般位图只能标识二元信息,如果有更多信息,可以用优化位图,相应用多个bit来描述。
    • 基数统计:
      • hll:有误差
      • 位图(bitcount),别玩位图也可用于统计基数。