- 594
- 2
- 约4.5千字
- 约 20页
- 2022-09-04 发布于甘肃
- 举报
* * * 电影网站用户影评分析 对电影的影评进行分析,可以从多维度了解一部电影的质量和受欢迎程度。 常规的数据分析工具在大数据场景下,处理数据的效率低下,显然不适用于大数据处理分析。 分布使用Hadoop分布式框架并结合电影评分数据,编写MapReduce程序实现用户影评分析,从多维度分析用户的观影兴趣偏好。 分布式计算框架的出现,为分析处理大数据的计算提供了很好的解决方案。 任务背景 1 多维度分析用户影评 目录 了解数据字段并分析需求 2 进行用户观影兴趣偏好的数据分析之前,需要了解分析对象、数据字段的含义以及数据字段之间的关系。 在明确数据字段的含义及其字段与字段之间可能存在的关系后,有助于提出科学的任务诉求,明确需求任务,因此本小节的任务是如下。 了解数据字段。 统计分析需求描述。 任务描述 电影网站提供了与用户信息相关的3份数据,分别为用户对电影的评分数据(ratings.dat)、已知性别的用户信息数据(users.dat)以及电影信息数据(movies.dat),3份数据的介绍说明如下表所示。 了解数据字段 字段 说明 UserID 用户ID MovieID 电影ID Rating 评分 Timestamp 时间戳 字段 说明 UserID 用户ID Gender 性别 Age 年龄段 Occupation 职业 Zip-code 编码 字段 说明 MovieID 电影ID Genres 电影类型 ratings.dat users.dat movies.dat 通过对电影网站用户及电影评论数据进行分析,结合MapReduce编程知识,分别从评价次数、性别、年龄段、电影类型这4个维度分析用户的观影喜好,具体的统计分析需求如下。 评价次数:计算评价次数最多的10部电影及评分次数。 性别:计算不同性别评分最高的10部电影及评分。 年龄段:计算某给定电影各年龄段的平均电影评分。 电影类型:计算影评库中各种类型电影中评价最高的5部电影。 统计分析需求描述 1 多维度分析用户影评 目录 了解数据字段并分析需求 2 根据任务需求进行MapReduce编程实施方案。 将分析需求整合在一个项目中完成,根据不同的分析任务进行任务分析,创建不同的Java类,将每个分析任务分解为若干小的统计任务,分步实现各影评分析任务,本小节任务如下。 创建并配置工程项目。 计算评分次数最多的10部电影及评分次数并分析。 计算不同性别评分最高的10部电影及评分并分析。 计算指定电影各年龄段的平均影评并分析。 计算影评库中各种类型电影中评价最高的5部电影并分析。 任务描述 在IDEA中创建一个名为hadoop的maven项目,并配置pom.xml文件。 配置完成pom.xml文件后,需要单击右侧边栏的Maven按钮,同时单击刷新按钮重新加载所有的Maven项目所需的依赖包,操作如图所示。 将Hadoop中的配置文件core-site.xml和hdfs-site.xml放至hadoop项目的resources目录下,具体如图所示。 创建并配置工程项目 在IDEA的hadoop项目com.cqyti.film.mapreduce包下定义一个名为Movies_Join_Ratings的类,该类主要完成movies.dat和ratings.dat两份数据的连接 。 将整个项目打包并上传至Hadoop集群中,通过“ hadoop jar ”命令接上JAR包名称(Movies_Join_Ratings.jar)和类名(com.cqyti.film.mapreduce.Movies_Join_Ratings),并按“ Enter ”键执行该MapReduce程序,即可在HDFS的/join/output目录下生成part-m-00000文件。 使用“hdfs dfs –cat /join/output/part-m-00000 | head -10”查看movies.dat和ratings.dat两份数据连接后的结果,具体实现如图所示。 计算评分次数最多的10部电影及评分次数并分析 1. 连接movies.dat和ratings.dat数据 在hadoop项目com.cqyti.film.mapreduce包下定义一个名为MoviesRatesAll的类,计算所有电影的评分次数 。 将整个项目打包并上传至Hadoop集群中,通过“hadoop jar ”命令接上JAR包名称(MoviesRatesAll.jar)和类名(com.cqyti.film.mapreduce.MoviesRatesAll),并按“Enter ”键执行该MapReduce程序,执行完成后即可在HDFS的/join/outputAll/目录下生成part-r-00000文件。
您可能关注的文档
- Hadoop大数据开发基础 第2版 第3章 Hadoop基础操作.ppt
- Hadoop大数据开发基础 第2版 第4章 MapReduce编程入门.ppt
- Hadoop大数据开发基础 第2版 第6章 Hive数据仓库.ppt
- Hadoop大数据开发基础 第2版 第5章 MapReduce进阶编程.pdf
- Hadoop大数据开发基础 第2版 第7章 HBase分布式数据库.ppt
- Hadoop大数据开发基础 第2版 配套课件.pptx
- 管道运输合同协议样本(2025年).docx
- 2025年小时工广告设计合同协议.docx
- 2025年环保项目投资管理合同协议模板.docx
- 2025年租赁合同范本:租赁合同模板下载.docx
最近下载
- 明代宗教信仰与思想控制.docx VIP
- 江苏省南通市2024-2025学年高二上学期期末学业质量监测语文试卷(含答案).pdf VIP
- 国就有成人演出的电影了?想看就要冒生命危险.pdf VIP
- 综合素质练习题及答案.doc VIP
- 2020-2021学年北京高三化学二轮复习 反应原理型简答题(突破二卷)(word版 含答案).docx VIP
- 电力拖动控制线路安装与检修(白银矿冶职业技术学院)知到智慧树答案.docx VIP
- 煤炭巷道掘砌工(高级工)资格考试题库(全真题库).docx VIP
- 影像叙事中情感共鸣生成机制.docx VIP
- 同轴二级圆柱齿轮减速器的设计(硬齿面).doc VIP
- 基于GPU多线程多通道图像高速重构方法、设备及介质.pdf VIP
原创力文档

文档评论(0)