Hadoop是什么
hadoop三大发行版本：
hadoop优势（四高）
Hadoop组成
- HDFS
- YARN
MapReduce
HDFS、YARN、MapReduce三者关系
- 未提交任务时的YARN和HDFS
- client提交任务后
大数据技术生态体系
推荐系统框架图

Hadoop是什么

Hadoop是一个由apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，hadoop通常是指一个更加广泛的概念—Hadoop生态圈。

hadoop三大发行版本：

Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。2006
Cloudera内部集成了很多大数据框架，对应产品CDH。2008
Hortonworks文档较好，对应产品HDP。2011
Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。

hadoop优势（四高）
高可靠性：hadoop底层维护多个数据副本，所以即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

高扩展性：在集群间分配任务数据，可方便的拓展数以千计的节点。

高效性：在mapreduce的思想下，hadoop是并行工作的，以加快任务处理速度。

高容错性：能够自动将失败的任务重新分配。

Hadoop组成

hadoop3.x和2.x由MapReduce(计算）、Yarn（资源调度）、HDFS（数据存储）、Common（辅助工具）组成

HDFS

Hadoop distributed file system 简称HDFS 是一个分布式文件存储系统。
HDFS架构概述

NameNode（nn）:存储文件的元数据，比如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的快列表和快所在的DataNode等。
DateNode（dn）:在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。

YARN
YetAnother Resource Negotiator 简称YARN ，另一种资源协调者，是Hadoop的资源管理器。
组成
ResourceManager（RM）：整个集群资源（内存、CPU等）的老大。
NodeManager（NM）：单个节点服务器资源老大。
ApplicationMaster（AM）：单个任务运行的老大。
Container：容器，相当于一台独立的服务器，在里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

点击查看【processon】
图上整个集群一共6c 12G(resource manager管理）分布在3个服务器上，每个服务器2c4g（node manager管理）。application manager 、map task、reduce task都运行在容器中，每次有任务进行时容器启动。（每个容器最小分配1c，因此可知此图中一个Node manager能运行两个container)

MapReduce

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

HDFS、YARN、MapReduce三者关系

未提交任务时的YARN和HDFS

client提交任务后

大数据技术生态体系

图中涉及的技术名词解释如下：

Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；
Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算
*Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。
Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

数据源
- 结构化数据有行有列二维表格样数据，一般用Sqoop同步mysql数据到离线数仓中
- 半结构化数据如文件日志、用户行为数据等，有分隔符，可以加工存储在Mysql表中的数据，一般用flume传输
- 非结构化数据比如视频、ppt 根本转化不了成结构化数据。一般用kafka处理（kafka也可以处理结构化数据和半结构化数据）
  推荐系统框架图

大数据学习

简介