1.部门组织架构
2.hadoop是什么
- 是一个Apache基金会所开发的分布式系统基础架构,主要解决,海量数据的存储和海量数据的分析计算问题
- 广义上来说,Hadoop通常是指一个更广泛的概念,hadoop生态圈
-
3.Hadoop发展历史
Lucene框架是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
- 2001年年底Lucene成为Apache基金会的一个子项目
- 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢
- 学习和模仿Google解决这些问题的办法:微型版Nutch
- 可以说Google是Hadoop的丝香之源(Google在大数据方面的三篇论文)
- GFS—->HDFS
- Map-Reduce—->MR
- BigTable—->HBase
- 2003-2004年,google公开了部分GFS和MapReduce思想的细节,以此为基础,Doug Cutting等人用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升
- 2005年Hadoop作为Lucene的子项目 Nutch的一部分正式引入Apache基金会
- 2006年3月 Map Reduce和Nutch Distributed File System (NDFS)分别被纳入成为Hadoop的项目中
- 名字来源于 Doug Cutting儿子的玩具大象
-
4.Hadoop三大发行版本
Apache,Cloudera,Hortonworks
Apache 版本最原始(最基础)的版本,对于入门学习最好
- Cloudera 在大型互联网企业中使用较多
-
5.Hadoop的优势 4个高
高可靠
Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
-
高扩展
-
高效
在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
高容错性
-
6.Hadoop1.x 和Hadoop2.x 的区别
Hadoop1.x的组成
- MapReduce 计算 + 资源调度
- HDFS
- 数据存储
- Common
- 辅助工具
- Hadoop2.x的组成
- 在1.x的基础上增加了Yarn (资源调度)
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算 + 资源调度,耦合度较大,在Hadoop2.x时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算。
7.HDFS架构概述
NameNode(nn) 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等
- 元数据,mysql等db中的表数据
- NameNode相当于目录
- DataNode(dn) 在本地文件系统存储文件块数据,以及块数据的校验和。
- DataNode相当于实实在在的数据
Secondary NameNode(2nn) 用来监控HDFS 状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
MapReduce 将计算过程分为两个阶段: Map 和Reduce
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
- 案例
10.大数据生态体系
11.推荐系统框架图