位图(Bit-map)
位图(Bit-map)就是用一个 bit 位来标记某个元素对应的 value, 而 key 即是该元素。由于采 用了 bit 为单位来存储数据,因此在存储空间方面,可以大大节省。
位图通过使用 bit 数组来表示某些元素是否存在,可进行数据的快速查找、判重、删除,一般来说数 据范围是 int 的 10 倍以下。
例如要对 {4,7,2,5,3} 进行排序,可以设置一个范围为 0~8 的比特数组,读入数据之后将比特数组第 2、3、4、5、7 位置设置为 1。最后从头遍历比特数组,将比特数组值为 1 的数据读出得到 {2,3,4,5,7} 这个已排序的数据。
1. 2.5 亿个数的去重
问题
在 2.5 亿个整数中找出不重复的整数,注,内存不足以容纳这 2.5 亿个整数。
分析
采用 2-Bitmap(即每个整数分配 2 bit:00 表示不存在,01表示出现一次,10 表示多次,11 表示无意义)。
这样,所占内存 2^32 * 2 bit = 1 GB。
步骤
扫描。
扫描这 2.5 亿个整数,查看 Bitmap 中相对应位, 如果是 00 变 01,01 变 10,10 保持不变。输出。
查看对应位为 01 的整数,输出即可。
2. 整数的快速查询
问题
给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40 亿个数当中?
分析
使用用位图的方法,40_10^8 = 4 _10^9 bit = 500 M,所以可以申请 512M 的内存,一个 bit 位代表一个 unsignedint 值。
步骤
读入 40 亿个数,设置相应的 bit 位,读入要查询的数,查看相应 bit 位是否为 1,为 1 表示存在,为 0 表示不存在。