概述Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集(RDDs) 并行集合外部 Datasets(数据集)RDD 操作 基础传递 Functions(函数)给 Spark理解闭包 示例Local(本地)vs. cluster(集群)模式打印 RDD 的 elements 与 Key-Value Pairs 一起使用Transformations(转换)Actions(动作)Shuffle 操作 Background(幕后)性能影响 RDD Persistence(持久化) 如何选择存储级别 ?删除数据 共享变量 广播变量Accumulators(累加器) 部署应用到集群中从 Java / Scala 启动 Spark jobs单元测试快速链接