分而治之(hash映射 + hash统计) + 堆/快速/归并排序
- 分而治之/hash映射:针对数据太大,内存受限,只能把大文件化成(取模映射)小文件。
- hash_map统计:当大文件转化了小文件,那么我们便可以采用常规的hash_map(key,value)来进行频率统计。
堆/快速排序:统计完了之后,便进行排序(可采取堆排序),得到次数最多的key。
多层划分
多层划分,其实本质上还是分而治之的思想,重在“分”的技巧上!
适用范围:第k大,中位数,不重复或重复的数字。
基本原理及要点:因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。
Bloom filter/Bitmap
Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集。
基本原理:当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。
因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
- Bitmap就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来表示某个元素是否存在,因此在存储空间方面,可以大大节省。Bitmap排序方法
第一步,将所有的位都置为0,从而将集合初始化为空。
第二步,通过读入文件中的每个整数来建立集合,将每个对应的位都置为1。
第三步,检验每一位,如果该位为1,就输出对应的整数。
Trie树/数据库/倒排索引
- Trie树
适用范围:数据量大,重复多,但是数据种类小可以放入内存。
基本原理及要点:实现方式,节点孩子的表示方式。
扩展:压缩实现。 - 数据库索引
适用范围:大数据量的增删改查。
基本原理及要点:利用数据的设计实现方法,对海量数据的增删改查进行处理。 倒排索引(Inverted index)
适用范围:搜索引擎,关键字查询。
基本原理及要点:一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。外排序
适用范围:大数据的排序,去重。
基本原理及要点:外排序的归并方法,置换选择败者树原理,最优归并树。
Map Reduce
Map Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。
适用范围:数据量大,但是数据种类小可以放入内存。
- 基本原理及要点:将数据交给不同的机器去处理,数据划分,结果归约。