大数据学习路线图

大数据学习路线图

001_大数据学习路线 - 图1

大数据基础入门

第一节：为什么要学习大数据

1、目的：很好工作
2、对比：Java开发和大数据开发

第二节：什么是大数据？

举例：
1、商品推荐：问题：（1）大量的订单如何存储？（2）大量的订单如何计算？
2、天气预报：问题：（1）大量的天气数据如何存储？（2）大量的天气数据如何计算？
什么是大数据，本质？
（1）数据的存储：分布式文件系统（分布式存储）
（2）数据的计算：分布式计算

第三节：Java和大数据是什么关系？

1、Hadoop：基于Java语言开发
2、Spark：基于Scala语言，Scala基于Java语言

第四节：学习大数据需要的基础和路线

1、学习大数据需要的基础：Java基础（JavaSE）—-> 类、继承、I/O、反射、泛型*
Linux基础（Linux的操作） —-> 创建文件、目录、vi编辑器**
2、学习路线：
（1）Java基础和Linux基础
（2）Hadoop的学习：体系结构、原理、编程
（）第一阶段：HDFS、MapReduce、HBase（NoSQL数据库）
（）第二阶段：数据分析引擎 —-> Hive、Pig
数据采集引擎 —-> Sqoop、Flume
（）第三阶段：HUE：Web管理工具
ZooKeeper：实现Hadoop的HA
Oozie：工作流引擎
（3）Spark的学习
（）第一个阶段：Scala编程语言
（）第二个阶段：Spark Core——-> 基于内存，数据的计算
（）第三个阶段：Spark SQL ——-> 类似Oracle中的SQL语句
（）第四个阶段：Spark Streaming —-> 进行实时计算（流式计算）：比如：自来水厂
（4）Apache Storm：类似Spark Streaming —-> 进行实时计算（流式计算）：比如：自来水厂
（*）NoSQL：Redis基于内存的数据库