1.部门组织架构

image.png

2.hadoop是什么

  • 是一个Apache基金会所开发的分布式系统基础架构,主要解决,海量数据的存储和海量数据的分析计算问题
  • 广义上来说,Hadoop通常是指一个更广泛的概念,hadoop生态圈
  • image.png

    3.Hadoop发展历史

  • Lucene框架是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎

  • 2001年年底Lucene成为Apache基金会的一个子项目
  • 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢
  • 学习和模仿Google解决这些问题的办法:微型版Nutch
  • 可以说Google是Hadoop的丝香之源(Google在大数据方面的三篇论文)
    • GFS—->HDFS
    • Map-Reduce—->MR
    • BigTable—->HBase
  • 2003-2004年,google公开了部分GFS和MapReduce思想的细节,以此为基础,Doug Cutting等人用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升
  • 2005年Hadoop作为Lucene的子项目 Nutch的一部分正式引入Apache基金会
  • 2006年3月 Map Reduce和Nutch Distributed File System (NDFS)分别被纳入成为Hadoop的项目中
  • 名字来源于 Doug Cutting儿子的玩具大象
  • Hadoop正式诞生并快速发展

    4.Hadoop三大发行版本

    Apache,Cloudera,Hortonworks

  • Apache 版本最原始(最基础)的版本,对于入门学习最好

  • Cloudera 在大型互联网企业中使用较多
  • Hortonworks 文档较好

    5.Hadoop的优势 4个高

    高可靠

  • Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失

  • 默认3个数据副本

    高扩展

  • 在集群间分配任务数据,可方便的扩展数以千计的节点

    高效

  • 在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度

    高容错性

  • 能够自动将失败的任务重新分配

    6.Hadoop1.x 和Hadoop2.x 的区别

  • Hadoop1.x的组成

    • MapReduce 计算 + 资源调度
  • HDFS
    • 数据存储
  • Common
    • 辅助工具
  • Hadoop2.x的组成
    • 在1.x的基础上增加了Yarn (资源调度)
  • 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算 + 资源调度,耦合度较大,在Hadoop2.x时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算。

    7.HDFS架构概述

  • NameNode(nn) 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等

    • 元数据,mysql等db中的表数据
    • NameNode相当于目录
  • DataNode(dn) 在本地文件系统存储文件块数据,以及块数据的校验和。
    • DataNode相当于实实在在的数据
  • Secondary NameNode(2nn) 用来监控HDFS 状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照

    • 辅助NameNode工作

      8.YARN架构

      image.png

      9.MapReduce 架构概述

  • MapReduce 将计算过程分为两个阶段: Map 和Reduce

    • Map阶段并行处理输入数据
    • Reduce阶段对Map结果进行汇总
  • 案例image.png

    10.大数据生态体系

    image.png

    11.推荐系统框架图

    image.png