适用人群

高校大学生、研究生和大数据爱好者,具备大数据基础知识,比如,学习过林子雨主讲《大数据技术原理与应用》

课程概述

本课程更加精美版本的视频,已经发布到中国大学MOOC(http://www.icourse163.org/course/XMU-1205811805)。
本课程由国内高校知名大数据教师厦门大学林子雨老师主讲,由厦门大学数据库实验室团队提供配套课程服务。课程教材是林子雨老师编著的《Spark编程基础》(人民邮电出版社,ISBN:978-7-115-47598-5)。本课程属于“进阶级”大数据课程,需要读者已经学习过大数据导论课程,了解Hadoop、MapReduce、HDFS、HBase等大数据基础知识。如果没有学习过大数据导论课程,建议读者先在网易云课堂学习林子雨老师主讲的大数据入门课程《大数据技术原理与应用》,该课程的两个版本在网易云课堂和中国大学MOOC学习人数超过8万人,99%网友给予了五星级最高评价。本课程以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。课程共8章,每周一更新1章。
第1章 大数据技术概述
第2章 Scala语言基础
第3章 Spark的设计与运行原理
第4章 Spark环境搭建和使用方法
第5章 RDD编程
第6章 Spark SQL
第7章 Spark Streaming
第8章 Spark MLlib
《Spark编程基础》教材官网(http://dblab.xmu.edu.cn/post/spark/)为本课程提供了全方位、一站式免费大数据学习资源

目录

连载
章节1:大数据技术概述
课时1大数据时代11:12
课时2大数据概念08:28
课时3大数据的影响04:56
课时4大数据关键技术05:28
课时5大数据计算模式06:00
课时6代表性大数据技术之Hadoop24:18
课时7代表性大数据技术之Spark08:48
课时8代表性大数据技术之Flink和Beam05:40
课时9本章配套讲义PPT-第1章-大数据技术概述
章节2:Scala语言基础
课时10计算机的缘起07:01
课时11编程范式08:18
课时12Scala简介05:06
课时13Scala的安装和使用方法10:02
课时14基本语法25:51
课时15控制结构10:21
课时16数据结构(容器、列表、集合、映射)25:15
课时17数据结构(迭代器、数组、元组)17:08
课时18类(类的定义和创建对象)08:43
课时19类(编译和执行)14:38
课时20类(getter和setter方法)12:04
课时21类(构造器)15:01
课时22对象(单例对象和伴生对象)18:10
课时23对象(apply方法和update方法)16:11
课时24继承07:09
课时25特质11:12
课时26模式匹配21:04
课时27函数定义(函数的类型和值)10:00
课时28函数定义(匿名函数和闭包)11:02
课时29函数定义(占位符语法)04:03
课时30针对集合的操作16:20
课时31函数式编程实例13:16
课时32本章配套讲义PPT-第2章-Scala语言基础
章节3:Spark的设计与运行原理
课时33Spark简介14:47
课时34Scala简介03:56
课时35Spark与Hadoop的对比14:02
课时36Spark生态系统15:59
课时37基本概念和架构设计11:03
课时38Spark运行基本流程12:16
课时39RDD概念06:33
课时40RDD操作03:45
课时41RDD执行过程07:19
课时42RDD特性05:49
课时43RDD依赖关系和运行过程14:27
课时44Spark的部署和应用方式17:49
课时45本章配套讲义PPT-第3章-Spark的设计与运行原理
章节4:Spark安装和使用方法
课时46安装Spark11:15
课时47在Spark Shell中运行代码13:25
课时48编写Spark独立应用程序21:07
课时49第一个Spark应用程序:WordCount13:22
课时50使用IntelliJ IDEA编写Spark应用程序02:03
课时51Spark集群环境搭建15:25
课时52在集群上运行Spark应用程序09:52
课时53本章配套讲义PPT-第4章-Spark安装和使用方法
章节5:RDD编程
课时54RDD创建12:05
课时55RDD操作16:29
课时56RDD持久化07:24
课时57RDD分区27:50
课时58键值对RDD的创建06:21
课时59常用的键值对 RDD转换操作(reduceByKey)05:23
课时60常用的键值对RDD转换操作(groupByKey)04:30
课时61常用的键值对RDD转换操作(reduceByKey和groupByKey的区别)14:20
课时62常用的键值对RDD转换操作(keys、values和sortByKey)18:51
课时63常用的键值对RDD转换操作(mapValues和join)05:18
课时64常用的键值对RDD转换操作(一个综合实例)07:36
课时65共享变量14:04
课时66文件数据读写(文件系统数据读写)11:32
课时67文件数据读写(JSON文件数据读写)10:31
课时68读写HBase数据(HBase简介)11:26
课时69读写HBase数据(创建一个HBase表)06:30
课时70读写HBase数据(配置Spark并编写程序读取HBase数据)12:45
课时71读写HBase数据(编写程序向HBase写入数据)13:28
课时72案例1:求TOP值12:43
课时73案例2:求最大最小值10:44
课时74案例3:文件排序12:50
课时75案例4:二次排序21:24
课时76案例5:连接操作27:28
课时77本章配套讲义PPT-第5章 RDD编程
章节6:Spark SQL
课时78Spark SQL简介19:36
课时79DataFrame与RDD的区别05:25
课时80DataFrame的创建10:41
课时81利用反射机制推断RDD模式12:04
课时82使用编程方式定义RDD模式18:32
课时83把RDD保存成文件02:53
课时84读写Parquet02:56
课时85通过JDBC连接数据库16:50
课时86本章配套讲义PPT-第6章-Spark SQL
章节7:Spark Streaming
课时87流计算概述17:27
课时88Spark Streaming简介08:14
课时89DStream操作概述09:21
课时90文件流13:49
课时91套接字流22:33
课时92RDD队列流10:45
课时93使用 Kafka作为数据源(Kafka的安装和准备工作)14:29
课时94使用 Kafka作为数据源(编程方法)33:17
课时95DStream无状态转换操作06:50
课时96DStream有状态转换操作26:23
课时97输出操作09:22
课时98本章配套讲义PPT-第7章-Spark Streaming
章节8:Spark MLlib
课时99Spark MLlib简介21:31
课时100机器学习工作流概念12:48
课时101构建一个机器学习工作流20:41
课时102特征抽取:TF-IDF18:59
课时103特征抽取:Word2Vec06:38
课时104特征抽取:CountVectorizer05:28
课时105逻辑斯蒂回归分类器21:19
课时106决策树分类器11:52

播放链接:
https://study.163.com/course/introduction/1005031005.htm