摘要: 项目概述: 需求:统计a56爆大奖在线娱乐手机号上行流量和、下行流量和、总的流量和(上行流量和+下行流量和), 将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去 13* ==> .. 15* ==>.. other ==>.. 提供数据文件如下: access.log 第二个字段:手机号 倒数第三字段 阅读全文
posted @ 2024-06-22 23:21 Uitwaaien_wxy 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 分布式资源管理框架YARN YARN基本使用 Yarn是一个资源管理框架,a56爆大奖在线娱乐它可以对提交到集群中的任务进行查看,并可以强制结束这些任务。 它常用的Shell命令有: yarn application [command_options] 一般使用流程,是先用list查看集群中未完成的所有任务以及它的 阅读全文
posted @ 2024-06-22 22:20 Uitwaaien_wxy 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 环境初始化 首先完成Java开发环境准备,创建工程并导入开发所需的Jar包。之后在准备好的工程中完成以下步骤。 在VSCode(或其他IDE)中新建一个Maven工程,并在pom.xml中添加Hadoop依赖。 <dependency> <groupId>org.apache.hadoop</gro 阅读全文
posted @ 2024-06-22 20:19 Uitwaaien_wxy 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 大数据技术概述 大数据简介 大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。 大数据技术的主要特点包括: 处理海量数据、并行处理、 实时处理、多样化数据源、可伸缩性; 大数据技术提 阅读全文
posted @ 2024-06-22 19:59 Uitwaaien_wxy 阅读(10) 评论(0) 推荐(0) 编辑