5.1 reduce(func)

使用func聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。

5.2 collect()

在驱动程序中以数组的形式返回数据集的所有元素。

5.3 count()

返回RDD中元素的个数

5.4 first()

返回RDD中的第一个元素

5.5 take(n)

返回一个由RDD的前n个元素组成的数组

5.6 takeOrdered(n)

返回RDD排序后的前n个元素组成的数组

5.7 aggregate(zeroValue:U)(seqOp:(U,T) => U, combOp:(U,U) => U)

每个分区的数据使用seqOp聚合,分区间的数据使用combOp与zeroValue进行聚合

5.8 fold(num)(func)

简化aggregate

5.9 saveAsTextFile(path)

调用toString

5.10 saveAsSequenceFile(path)

以Hadoop sequence格式保存

5.11 saveAsObjectFile(path)

序列化后存储到文件

5.12 countByKey()

针对(K,V)类型的RDD,返回每个K的元素个数

5.13 foreach(func)