一、Spark的背景、定义、特点

1、背景

  • mapReduce框架有局限性,只有这两种操作
  • 编程比较复杂,学习成本高
  • 效率比较低

    2、定义

  • 专为大规模数据处理设计的快速的通用的计算引擎

    3、特点

  • 速度快,spark比hadoop快100倍

  • 易用性,80多个高级运算符,跨语言
  • 通用性,spark提供了大量的库
  • 支持多种资源管理器
  • 生态组件丰富与成熟

    二、在hadoop生态圈中的位置

1、在hadoop中的位置

图片.png

2、spark生态圈

图片.png

三、版本发展

图片.png
总结:spark2.x比spark1.x更抽象,更成熟