Hadoop主要包括下面四个模块
Hadoop Common:一些公共类
Hadoop Distributed File System:分布式文件存储系统
Hadoop YARN:Job与集群资源的管理
Hadoop MapReduce:基于YARN的系统,并行处理大数据集合;用于处理离线数据
官网截图如下:
hive:将mr程序封装成sql使用,学习成本低;后续用于构建data warehouse;其本质是将sql转为mr执行的
habse:分布式数据库
spark:在线计算,效率比mr高,但IO消耗过多
zookeeper:开源界中分布式、高可用无其他对手