Spark - scolo

首页个人开发工作相关共享

登录

colo

欲买桂花同载酒

累计撰写 1823 篇文章
累计收到 0 条评论

首页
栏目

Spark

2025-12-14
Spark RDD转换操作与行动操作的区别及示例 Spark RDD操作分为两类：转换操作(Transformations)：创建新RDD的惰性操作（如map, filter）行动操作(Actions)：触发实际计算并返回结果的操作（如count, collect）关键区别：转换操作记录计算逻辑但不立即执行，行动操作才会触发实际计算（惰性求值）。
- 2025年-12月-14日
- 8 阅读
- 0 评论
Spark
2025-12-12
Spark处理大规模日志数据：用户访问统计与TopN分析实现步骤：读取日志文件创建RDD，解析用户ID使用map和reduceByKey统计用户访问次数采用top或takeOrdered获取Top10用户优化Shuffle过程避免数据倾斜关键优化点：使用reduceByKey替代groupByKey为TopN操作添加二次采样分区处理数据倾斜时添加随机前缀
- 2025年-12月-12日
- 5 阅读
- 0 评论
Spark
2025-12-12
使用Spark Structured Streaming实现实时销售数据的滚动窗口统计实现要点：使用readStream读取Kafka销售数据流定义withWatermark处理延迟数据（水印机制）应用groupBy+window进行10分钟滚动窗口聚合使用update输出模式减少状态数据量配置检查点实现故障恢复
- 2025年-12月-12日
- 4 阅读
- 0 评论
Spark
2025-12-12
设计高吞吐低延迟的Spark Structured Streaming作业处理乱序时间序列数据实现要点：使用事件时间窗口代替处理时间窗口设置合理水印(watermark)控制状态存储通过withWatermark + allowedLateness处理迟到数据优化状态存储和检查点配置采用倾斜处理技术解决数据分布不均问题
- 2025年-12月-12日
- 4 阅读
- 0 评论
Spark
2025-12-12
使用Spark计算数字平方和使用Spark计算1到10的平方和需要三个步骤：创建包含1-10的RDD：sc.parallelize(1 to 10)使用map转换算子计算平方：.map(x => x * x)使用reduce行动算子求和：.reduce(_ + _)完整代码：sc.parallelize(1 to 10).map(x => x*x).reduce(_+_)
- 2025年-12月-12日
- 8 阅读
- 0 评论
Spark
2025-12-8
Spark数据倾斜场景分析与优化方案处理Spark数据倾斜的核心步骤：诊断定位：通过Spark UI观察Stage执行时间与Shuffle读写量异常识别倾斜Key：使用sample抽样或countByKey找出热点Key优化策略：加盐处理（Salting）分散热点Key使用reduceByKey替代groupByKey开启spark.sql.adaptive.enabled自适应执行
- 2025年-12月-8日
- 4 阅读
- 0 评论
Spark

colo

欲买桂花同载酒

1823 文章数

0 评论量

Gradio Web UI 界面
emlog pro 插件不可投稿分类导航限显
Shell常用语法

人生倒计时

舔狗日记

载入天数...载入时分秒...

本站由emlog驱动湘ICP备2024056368号-2