思想:分而治之 + Hash

    1. IPv4,共32位,最多有 1-海量日志数据,提取出某日百度访问次数最多的IP - 图1种IP地址,共4G,因此不能一次性加载到内存中;
    2. 可以考虑分治思想。按照IP地址的Hash(IP) % 1024,把海量IP日志分别存储到1024个小文件中。对于每个小文件,最多包含4MB个IP地址;
    3. 对于每一个小文件,构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个地址;
    4. 得到1024个小文件中出现次数最多的IP,再对这1024个(IP : count)构成的容器根据count关键字进行排序。