堆排优点在于当求M个数中的前n个最大数，和最小数的时候性能极好。（海量数据）

堆排序法
堆排序是4种平均时间复杂度为nlogn的排序方法之一，其优点在于当求M个数中的前n个最大数，和最小数的时候性能极好。所以当从海量数据中要找出前m个最大值或最小值，而对其他值没有要求时，使用堆排序法效果很好。
使用场景：从1亿个整数里找出100个最大的数
步骤：
1.读取前100个数字，建立最大值堆。（这里采用堆排序将空间复杂度讲得很低，要排序1亿个数，但一次性只需读取100个数字，或者设置其他基数，不需要1次性读完所有数据，降低对内存要求）
2、依次读取余下的数，与最大值堆作比较，维持最大值堆。可以每次读取的数量为一个磁盘页面，将每个页面的数据依次进堆比较，这样节省IO时间。
3.将堆进行排序，即可得到100个有序最大。
这里再补充学习一下堆排序
堆是具有以下性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆；或者每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆。

从海量数据中查找数据是否存在类似布隆过滤器（注意要求）

位图法
使用场景举例：对2G的数据量进行排序，这是基本要求。
数据：1、每个数据不大于8亿；2、数据类型位int；3、每个数据最多重复一次。
内存：最多用200M的内存进行操作。
首先对占用的内存进行判断，每个数据不大于8亿，那么8亿是一个什么概念呢。
1 byte = 8 bit（位）
1024 byte = 81024 bit = 1k
1024 k = 81024*1024 bit = 1M = 8388608 bit
也就是1M=8388608位
而位图法的基本思想就是利用一位代表一个数字，例如3位上为1,则说明3在数据中出现过，若为0，则说明3在数据中没有出现过。所以当题目中出现每个数据最多重复一次这个条件时，我们可以考虑使用位图法来进行大数据排序。比如说有一个同等长度的int数组，原来一个int元素用来表示一个数据，现在利用int元素的每一位，它可以表示32个元素。
那么假如使用位图法来进行这题的排序，内存占用多少呢。由题目知道每个数据不大于8亿，那么我们就需要8亿位，占用800000000/8388608=95M的空间，满足最多使用200M内存进行操作的条件，这也是这题能够使用位图法来解决的一个基础。

最直接最笨的办法

方法二,分治法.通过Hash法将9亿条数据分为20段,每一段大约5000万条,大约需要占用500万*4B = 200MB空间,在文件中依次搜索0~5000万,50000001~1亿 ,,,,,,,将排序的结果存入文件,该方法要装满9位整数,一共需要20次,所以一共要进行20次排序,需要对文件进行20次读操作.该方法虽然缩小了每次使用的内存空间大小,但是编码复杂,速度也慢.

Jack潮的后端学习笔记

场景提题，海量数据

堆排优点在于当求M个数中的前n个最大数，和最小数的时候性能极好。（海量数据）

从海量数据中查找数据是否存在类似布隆过滤器（注意要求）

最直接最笨的办法