Transformations
下面的表格展示了Spark常用的transformations。查阅RDD API的文档(Scala,Java,Python)和pair RDD 方法文档(Scala,Java)可以得到更多细节。
(这里太多了,隔日再翻译)
Transformation | 含义 |
---|---|
map(func) | 返回一个新的分布式数据集,是通过函数func 处理每个源元素组成的 |
filter(func) | 返回一个新的数据集,通过选择源元素使得 func 返回 true的组成 |
flatMap(func) | 类似Map,但每个输入项可以被映射到0到更多的输出产品(所以func 应返回序列而不是单一的项)。 |
mapPartitions(func) | 类似Map,但分别返回的是每个RDD分区(块),所以func 当运行在T类型的RDD上时,必须是类型Iterator<T> => Iterator<U> |