继昨天完成 Spark 本地环境搭建并初步接触 Spark Shell 后,今天的学习重心放在了RDD 的核心操作逻辑上,还动手实现了大数据领域的入门经典案例 ——WordCount。今天的学习首先从区分 RDD 的两类核心操作开始。昨天在 Spark Shell 里敲过parallelize filter count这些命令,但当时没深究它们的区别。今天查资料才明白,RDD 的操作分为转换操作(Transformation) 和行动操作(Action) ,这是理解 Spark 运行机制的关键。转换操作是对 RDD 进行 “加工”,比如map(对每个元素做映射)、filter(过滤符合条件的元素)、flatMap(扁平化映射)、groupByKey(按 key 分组)。但转换操作是懒执行的—— 执行这些命令时,Spark 并不会立刻计算结果,只是记录下 RDD 之间的依赖关系,相当于画好了 “计算蓝图”。而行动操作是触发计算的 “开关”,比如count(统计元素个数)、collect(返回所有元素到 Driver 端)、saveAsTextFile(保存结果到文件)、reduce(聚合元素)。只有执行行动操作时,Spark 才会根据之前记录的依赖关系,从头开始计算,得到最终结果。
鄂尔多斯市网站建设_网站建设公司_JSON_seo优化