大数据学习路线图
大数据基础入门
第一节:为什么要学习大数据
1、目的:很好工作
2、对比:Java开发和大数据开发
第二节:什么是大数据?
举例:
1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?
2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?
什么是大数据,本质?
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算
第三节:Java和大数据是什么关系?
1、Hadoop:基于Java语言开发
2、Spark: 基于Scala语言,Scala基于Java语言
第四节:学习大数据需要的基础和路线
1、学习大数据需要的基础:Java基础(JavaSE)—-> 类、继承、I/O、反射、泛型*
Linux基础(Linux的操作) —-> 创建文件、目录、vi编辑器**
2、学习路线:
(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
()第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)
()第二阶段:数据分析引擎 —-> Hive、Pig
数据采集引擎 —-> Sqoop、Flume
()第三阶段:HUE:Web管理工具
ZooKeeper:实现Hadoop的HA
Oozie: 工作流引擎
(3)Spark的学习
()第一个阶段:Scala编程语言
()第二个阶段:Spark Core——-> 基于内存,数据的计算
()第三个阶段:Spark SQL ——-> 类似Oracle中的SQL语句
()第四个阶段:Spark Streaming —-> 进行实时计算(流式计算):比如:自来水厂
(4)Apache Storm:类似Spark Streaming —-> 进行实时计算(流式计算):比如:自来水厂
(*)NoSQL:Redis基于内存的数据库