一、定义

分布式运算程序的编程框架，将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发的运行在一个Hadoop集群上。

二、优点

只需要简单实现一些接口，就可以完成一个分布式程序，也就是说以编写简单的串行程序的方式编写分布式程序。

通过简单的增加机器即可扩展计算能力

Hadoop内部即可自动在某一台机器挂了的时候将任务转移到另一个节点上运行，不至于这个任务运行失败。

可以实现上千台服务器集群并发工作

涉及节点的启动，延迟高

MapReduce的设计特点决定了其数据输入是静态的，而流式数据计算需要动态的输入数据

DAG计算即多个任务存在依赖关系，前一个任务的输出成为后一个任务的输入。MapReduce存储基于磁盘，需要经历写入磁盘再从磁盘读出的过程，性能非常低。