gop并行读文件之对黑名单代码优化
    1.1 在mapper中对标记有black的数据进行处理,key是统一的,黑名单的value前加上标记; 在reduce中判断value,有标记的是黑名单的数据,如果没有标记则是实体数据。随后在对实体数据中的内容和黑名单内容对比,去掉实体数据中是黑名单数据的数据。在标准化输出。
    1.2在mapper中把数据放在key上,value来区分是否是黑名单,免去了在reduce去重
    1.3在mapper中把数据进行分类的代码放入setup,避免了再mapper中重复的判断

    流式分组:处理有序的的数据,边判断边合并
    1)定义变量前一行数据key和value和后一行key、value
    2)遍历数据
    3)进行边缘判断,首行数据直接添加到新组
    4)对前后两行的key判断 相同的对前行组的value+1,否则清除组数据把后行添加到组,行变量后移对,
    5)直到最后一组判断完,关闭流

    yarn:资源管理和任务调度
    特点:减少ResorceManager的压力
    组件:
    ResourceManager:管理整个集群资源和调度、
    NodeManager:对节点资源管理
    ApplicationMaster:对应用的管理
    container:抽象的任务,以上的任务都属于container

    容错性:ResourceManager有备份,一个宕机还有其他RM顶上
    NodeManager出错,ApplicationMaster重启任务
    ApplicationMaster出错,ResourceManager管理

    三种调度策略:
    FIFO:排成一队,先进先出
    容器调度:分成多队,但是不可以换队,尽管其他队空闲
    公平调度:分多队,可换队,但是换队的时候需要重复执行部分任务。