第二章第六节 财产清查 知识点总结及真题详解
2026/1/16 15:59:27
在Apache Spark中,RDD(弹性分布式数据集)的持久化(Persistence)是一种优化技术,用于将RDD的计算结果存储在内存或磁盘中,避免重复计算。以下是关键要点:
通过persist()或cache()方法设置,常用级别:
MEMORY_ONLY:仅内存(默认)MEMORY_AND_DISK:内存不足时溢写到磁盘DISK_ONLY:仅磁盘_SER后缀表示序列化存储(如MEMORY_ONLY_SER)# 创建RDD rdd = sc.parallelize(range(1, 1000000)) # 持久化到内存(带序列化) rdd.persist(StorageLevel.MEMORY_ONLY_SER) # 触发计算并缓存 rdd.count() # 后续操作直接使用缓存 result = rdd.filter(lambda x: x % 2 == 0).collect()unpersist()释放资源DISK_ONLY持久化是Spark性能优化的核心手段之一,合理使用可提升作业效率$$ \text{性能增益} \propto \frac{\text{复用次数}}{\text{计算成本}} $$