1. 模块一
    1. Hadoop简介
      1. HDFS:分布式文件系统。存储
      2. MapReduce:分布式离线计算框架。计算
      3. Yarn:资源调度框架
      4. Common模块
    2. 大数据特点(5个)
      1. 大量
      2. 高速
      3. 多样
      4. 真实
      5. 低价值
    3. Hadoop是一个适合大数据的分布式存储和计算平台
    4. Hadoop特点
      1. 扩容能力:在集群内完成数据分配和计算任务。
      2. 低成本:通过服务器组成的集群在分发和处理数据。
      3. 高效率:可以动态并行的移动数据,速度很快。
      4. 可靠性:自动维护数据的多份复制,任务失败会自动重新部署计算任务。
      5. 缺点:不适用于低延迟数据访问;不能高效存储大量小文件;不支持用户写入和任意的修改文件。
      6. HDFS(NameNode、SecondaryNameNode、DataNode)
    5. 数据切割、制作副本、分散存储
    6. 存入过程
      1. 对于大数据进行拆分,切割得到多个数据块
    7. 获取过程
      1. 向nameNode请求获取到之前存入的文件块以及文件块所在的dataNode的信息,分别下载并最终合并,就得到之前的文件了。
    8. image.png
    9. nameNode:主节点,管理和维护元数据;记录了文件的块列表以及块所在的DataNode节点信息。
    10. DataNode:从节点,存储数据块。
    11. secondaryNameNode:辅助nameNode管理和维护元数据。
    12. 三者:既是角色名称也是进程名称,也代指电脑节点。
      1. MapReduce
    13. image.png
      1. Yarn
    14. image.png
      1. Common模块
    15. 支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)
  2. Hadoop分布式集群搭建 | 框架 | linuxHadoop | linuxHadoop2 | linuxHadoop3 | | —- | —- | —- | —- | | HDFS | NameNode、DataNode | DataNode | SecondaryNameNode、DataNode | | YARN | NodeManager | NodeManager | ResourceManager、NodeManager |

    1. 添加Hadoop到环境变量
      1. vim /etc/profile
      2. HADOOP_HOME export HADOOP_HOME=/opt/lagou/servers/hadoop-2.9.2 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin

      3. source /etc/profile
      4. hadoop version