1、最主要的区别在于持久化只是将数据保存在BlockManager中,但是RDD的lineage(⾎缘关系,依赖关系)是不变的。但是checkpoint执⾏完之后,rdd已经没有之前所谓的依赖rdd了,⽽只有⼀个强⾏为其设置的checkpointRDD,checkpoint之后rdd的lineage就改变了。
    2、持久化的数据丢失的可能性更⼤,因为节点的故障会导致磁盘、内存的数据丢失。但是checkpoint的数据通常是保存在⾼可⽤的⽂件系统中,⽐如HDFS中,所以数据丢失可能性⽐较低。