首页
个人开发
工作相关
搜索
登录
搜索
colo
欲买桂花同载酒
累计撰写
1823
篇文章
累计收到
0
条评论
首页
栏目
首页
个人开发
工作相关
Hadoop
2025-12-12
简述HDFS写入数据的流程
HDFS写入数据的主要流程如下:客户端向NameNode发起文件创建请求NameNode验证权限并分配数据块存储位置客户端将数据分割成数据包(packet)写入DataNode流水线DataNode通过流水线复制实现多副本存储写入完成后NameNode提交元数据更新
2025年-12月-12日
5 阅读
0 评论
Hadoop
2025-12-12
Hadoop MapReduce实现用户访问URL频次统计与排序
实现步骤:Mapper阶段:解析日志,输出<用户_URL, 1>键值对Combiner阶段:本地聚合减少网络传输Reducer阶段:全局汇总访问次数自定义排序:通过实现WritableComparable接口实现按访问次数降序排列使用Secondary Sort技术确保相同用户的URL按访问次数排序
2025年-12月-12日
4 阅读
0 评论
Hadoop
2025-12-12
设计一个处理大规模数据倾斜的Hadoop解决方案
处理数据倾斜的核心策略:使用自定义Partitioner分散热点键采用盐值技术(Salting)拆分大键实现两阶段聚合:局部聚合+全局聚合优化Combiner设计减少数据传输配置Reducer内存参数防止OOM
2025年-12月-12日
4 阅读
0 评论
Hadoop
2025-12-12
设计一个处理大规模数据倾斜的Hadoop MapReduce解决方案
核心解决方案要点:使用自定义Partitioner将热点Key分散到多个Reducer在Map阶段采用局部聚合(Combiner优化)减少数据传输对倾斜Key添加随机前缀实现二次分发利用分布式缓存存储热点Key识别结果Reducer阶段进行最终聚合时移除随机前缀最终通过两阶段MR作业实现:第一阶段识别倾斜Key,第二阶段处理倾斜。
2025年-12月-12日
4 阅读
0 评论
Hadoop
2025-12-11
HDFS文件操作与权限管理
核心操作命令:hadoop fs -put localfile /user/hadoop/ - 上传文件hadoop fs -chmod 755 /user/hadoop/file - 修改权限hadoop fs -ls /user/hadoop - 查看文件列表关键知识点:HDFS权限模型类Linux(rwx)默认副本数由hdfs-site.xml配置NameNode管理元数据,DataNode存储实际数据块
2025年-12月-11日
5 阅读
0 评论
Hadoop