:::info 💡 根据 遗忘曲线:如果没有记录和回顾,6天后便会忘记75%的内容

  1. 读书笔记正是帮助你记录和回顾的工具,不必拘泥于形式,其核心是:记录、翻看、思考

:::

Hadoop第一章课堂笔记 - 图1

1.大数据简要

大数据技术概要想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。 第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。 第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

画板

2.GFS思想

谷歌文件系统(GFS)就是一个存放数据的分布式文件系统,个人理解就是一个可以在多台计算机上存储数据的系统,是其他上层系统(BigTable等)的基础。 GFS提供了海量非结构化信息的存储平台,并提供数据的冗余备份,成千台服务器的自动负载均衡以及失效服务器检测

3.Hadoop概述

Hadoop第一章课堂笔记 - 图3

画板

3.1Hadoop三大核心

3.1.1 MapReduce

MapReduce 将计算过程分为两个阶段:Map 和Reduce
1)Map 阶段并行处理输入数据
2)Reduce 阶段对Map 结果进行汇总

MapReduce的核心思想是,当启动一个MapReduce任务时,Map端将会读取HDFS上的数据,将数据映射成所需要的键值对类型并传至Reduce端。Reduce端接收Map端键值对类型的中间数据,并根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出至HDFS。

Hadoop第一章课堂笔记 - 图5

3.1.2 YARN

YARN ,另一种资源协调者,是Hadoop 的资源管理器。主要由:ResourceManager,nodeManager,ApplicationMaster,Container组成:

ResourceManager(RM):

主要接收客户端任务请求,接收和监控NodeManager(NM)的资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM),一个集群只有一个。

NodeManager(NM):

主要是节点上的资源管理,启动Container运行task计算,上报资源、container情况给RM和任务处理情况给AM,整个集群有多个。

ApplicationMaster(AM):

主要是单个Application(Job)的task管理和调度,向RM进行资源的申请,向NM发出launch Container指令,接收NM的task处理状态信息。每个应用有一个。

Client Application: Client Application是客户端应用程序,客户端将应用程序提交到RM时,首先将创建一个Application上下文件对象,再设置AM必需的资源请求信息,最后提交至RM。

Hadoop第一章课堂笔记 - 图6

3.1.3 HFDS

HDFS是指适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。主要包含namenode和datanode。 NameNode(nn):存储文件的元数据,如文件名、文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验。
Hadoop第一章课堂笔记 - 图7