首页
个人开发
工作相关
共享
搜索
登录
搜索
colo
欲买桂花同载酒
累计撰写
1823
篇文章
累计收到
0
条评论
首页
栏目
首页
个人开发
工作相关
共享
Spark
2025-12-14
Spark RDD转换操作与行动操作的区别及示例
Spark RDD操作分为两类:转换操作(Transformations):创建新RDD的惰性操作(如map, filter)行动操作(Actions):触发实际计算并返回结果的操作(如count, collect)关键区别:转换操作记录计算逻辑但不立即执行,行动操作才会触发实际计算(惰性求值)。
2025年-12月-14日
8 阅读
0 评论
Spark
2025-12-12
Spark处理大规模日志数据:用户访问统计与TopN分析
实现步骤:读取日志文件创建RDD,解析用户ID使用map和reduceByKey统计用户访问次数采用top或takeOrdered获取Top10用户优化Shuffle过程避免数据倾斜关键优化点:使用reduceByKey替代groupByKey为TopN操作添加二次采样分区处理数据倾斜时添加随机前缀
2025年-12月-12日
5 阅读
0 评论
Spark
2025-12-12
使用Spark Structured Streaming实现实时销售数据的滚动窗口统计
实现要点:使用readStream读取Kafka销售数据流定义withWatermark处理延迟数据(水印机制)应用groupBy+window进行10分钟滚动窗口聚合使用update输出模式减少状态数据量配置检查点实现故障恢复
2025年-12月-12日
4 阅读
0 评论
Spark
2025-12-12
设计高吞吐低延迟的Spark Structured Streaming作业处理乱序时间序列数据
实现要点:使用事件时间窗口代替处理时间窗口设置合理水印(watermark)控制状态存储通过withWatermark + allowedLateness处理迟到数据优化状态存储和检查点配置采用倾斜处理技术解决数据分布不均问题
2025年-12月-12日
4 阅读
0 评论
Spark
2025-12-12
使用Spark计算数字平方和
使用Spark计算1到10的平方和需要三个步骤:创建包含1-10的RDD:sc.parallelize(1 to 10)使用map转换算子计算平方:.map(x => x * x)使用reduce行动算子求和:.reduce(_ + _)完整代码:sc.parallelize(1 to 10).map(x => x*x).reduce(_+_)
2025年-12月-12日
8 阅读
0 评论
Spark
2025-12-8
Spark数据倾斜场景分析与优化方案
处理Spark数据倾斜的核心步骤:诊断定位:通过Spark UI观察Stage执行时间与Shuffle读写量异常识别倾斜Key:使用sample抽样或countByKey找出热点Key优化策略:加盐处理(Salting)分散热点Key使用reduceByKey替代groupByKey开启spark.sql.adaptive.enabled自适应执行
2025年-12月-8日
4 阅读
0 评论
Spark