概述

  • [x] 定义:分布式运算程序的变成框架

  • [x] 优点:

易于编程
扩展性好:增加机器即可增加计算能力
容错性高:某台机器挂了,计算任务会转移到其他机器,不影响计算
处理量大:PB级以上的海量数据离线处理

  • 缺点:

不擅长实时计算:计算速度慢
不擅长流式计算:输入的数据是静态的,不能动态化
不擅长DAG(有向图)计算:每个job写出的结果都需要存放到磁盘中,才能再被其他job从磁盘中调出来,造成大量的磁盘io,性能低下。



key:

唯一标识、特性

value:

key附带的属性