
Hadoop(重点):Hadoop是大数据技术中最重要的框架之一,是学习大数据的第一课。
目前,Hadoop已经从1.x版本发展到现在的3.x版本。Hadoop一共包含3个组件:分别是最强的分步式文件系统HDFS,海量数据并行计算框架MapReduce,流行的资源管理系统Yarn。
任何框架的学习,先搭建好环境,线上跑一个测试案例,之后再深入其原理。
HDFS有伪分布式、完全分步式以及高可用架构模型,重点了解HA架构模型以及各个角色的职责。
HDFS的架构模型主要包括以下角色:Namenode(Active、Standyby),Datanode,JournalNode,DFSZKFailoverController(ZKFC),SecondNamenode。
虽SecondNamenode应用较少,但还是要了解其工作机制。
MapReduce的核心思想、详细工作流程,Shuffle机制也要重点掌握,面试会问。
Yarn资源管理系统不仅适用于MapReduce计算框架,同时也会被用于Spark计算框架,所以它的工作机制也非常重要。
我推荐大家学习尚硅谷的Hadoop教程,从原理到生产实践调优,再深入源码,非常透彻。
尚硅谷Hadoop链接:
https://www.bilibili.com/video/av21303002
[
](https://blog.csdn.net/qq_24885953/article/details/116721888)
