Transformations

下面的表格展示了Spark常用的transformations。查阅RDD API的文档(Scala,Java,Python)和pair RDD 方法文档(Scala,Java)可以得到更多细节。

(这里太多了,隔日再翻译)

Transformation 含义
map(func) 返回一个新的分布式数据集,是通过函数func处理每个源元素组成的
filter(func) 返回一个新的数据集,通过选择源元素使得 func返回 true的组成
flatMap(func) 类似Map,但每个输入项可以被映射到0到更多的输出产品(所以func应返回序列而不是单一的项)。
mapPartitions(func) 类似Map,但分别返回的是每个RDD分区(块),所以func当运行在T类型的RDD上时,必须是类型Iterator<T> => Iterator<U>