摘要: RDD不仅是分布式的数据集合,更是Spark的核心。 RDD会跟踪应用a56爆大奖在线娱乐块的所有转换(日志),也就是说,当RDD的某个分区数据丢失时会根据日志进行重新计算。 RDD是无Schema的数据结构。 1、RDD的生成 RDD的生成有三种方式, 1) .parallelize() 集合生成 2)外部文件或 阅读全文
posted @ 2020-07-28 22:26 Wind_LPH 阅读(199) 评论(0) 推荐(0) 编辑
摘要: Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出a56爆大奖在线娱乐中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio 阅读全文
posted @ 2020-07-28 21:19 Wind_LPH 阅读(170) 评论(0) 推荐(0) 编辑