Resilient Distributed Datasets

来源 renguiqiang 浏览 277 扫码分享 2022-06-25 19:53:27

Resilient Distributed Datasets

Resilient Distributed Datasets

Spark总是围绕着resilient distributed dataset(RDD)的概念，它是一个能并行操作的容错的元素集合。创建RDDs有两种方法：在你的驱动程序里parallelizing一个已经存在的集合；或者引用一个外部存储系统上的数据集，比如一个共享文件系统，HDFS，HBase，或者其他提供Hadoop输入格式的数据源。

若有收获，就点个赞吧

让时间为你证明