Hadoop主要包括下面四个模块

  • Hadoop Common:一些公共类

  • Hadoop Distributed File System:分布式文件存储系统

  • Hadoop YARN:Job与集群资源的管理

  • Hadoop MapReduce:基于YARN的系统,并行处理大数据集合;用于处理离线数据

官网截图如下:
一、Hadoop简介 - 图1

  • hive:将mr程序封装成sql使用,学习成本低;后续用于构建data warehouse;其本质是将sql转为mr执行的

  • habse:分布式数据库

  • spark:在线计算,效率比mr高,但IO消耗过多

  • zookeeper:开源界中分布式、高可用无其他对手