RDD(3) 转换算子-Value

浏览 260 扫码分享 2023-11-23 12:30:11

重新分区
一 Vlue类型
- 10.coalesce()
- 11.repartition()
三 Key-Value
- 17. partitionBy()

重新分区

一 Vlue类型

10.coalesce()

函数签名 def coalesce(numPartitions: Int, //分区数量 shuffle: Boolean = false, //重新分区时是否打乱分区中(还未)的数据
partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
(implicit ord: Ordering[T] = null) : RDD[T]

作用缩减合并分区，用于大数据集合过滤后提高小数据集的执行效率

11.repartition()

函数签名 def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] � 作用扩大分区

三 Key-Value

17. partitionBy()

函数签名 def partitionBy(partitioner: Partitioner): RDD[(K, V)] � 作用打乱数据、重新分区

例子

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("R13")
    val sc = new SparkContext(conf)
    val rdd1: RDD[Int] = sc.makeRDD(List(1,2,3,4),2)
    val mapRDD: RDD[(Int, Int)] = rdd1.map(item => (item, 1))
    val newRDD: RDD[(Int, Int)] = mapRDD.partitionBy(new HashPartitioner(3)) //可以自定义
    newRDD.saveAsTextFile("output")
    sc.stop()

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录