某数据技术期末某作业任务书(知识研究版本).doc

某数据技术期末某作业任务书(知识研究版本).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据技术期末大作业任务书

一、基于****电影数据的分析:访问****电影Top250

。(20分)要求:

要求使用Python的requests和BeautifulSoup库完成解析,在代码中加入异常处理,确保爬虫在数据字段缺失时不会出错;(5分)

详细获取每部电影的以下信息:排名、中文片名、评分、链接、导演、编剧、主演、类型、上映时间、片长、评分人数、剧情简介,将数据保存为结构化文件(如CSV文件),以供后续分析使用;(5分)

算法末尾需同步输出个人信息以及系统时间,可通过创建函数或语句实现。如(李某某大数据技术作业**模块完成时间:****年**月**日);

(10分)(注:关键行代码需要对算法进行注释,注释和个人信息代码全无者不得分,需要对每个步骤和结果进行截屏)

二、使用Kettle对题目一中得到的文件进行转换处理。(40分)要求:

去除空值(Nullvalues)所在行、所在列,删除剧情简介和链接列,将片长字段从字符串转换为整数,给出操作过程;(10分)

通过Kettle连接MySQL数据库,使用Kettle把题目一中爬取生成文件导入到MySQL数据库,表名为“movies_学号”,给出操作过程;(10分)

计算片长、评分、评分人数字段的最大值、最小值、平均值等统计指标。使用GroupBy步骤对数据进行分组汇总,按电影类型进行分组,计算每个类型的电影平均评分、上映电影的平均片长(使用Kettle或数据库完成操作皆可);(10分)

算法末尾需同步输出个人信息以及系统时间。如(李某某大数据技术作业**模块完成时间:****年**月**日);(10分)

(注:需要对每个步骤和结果进行截屏)

三、在Kettle处理和清洗数据后,通过不同的工具(如Excel、Tableau、PowerBI、JupyterNotebook)来对数据进行可视化。

(40分)

要求:

通过评分的频率分布展示****电影评分的分布情况,查看大多数电影的评分集中在哪个区间,回答大多数电影的评分集中在什么区间,评分超过9.0的电影占比如何?(5分)

按照电影类型的分布,用饼图展示不同类型的电影所占比例,条形图展示“剧情”、“喜剧”、“动作”等类型的电影数量。回答哪些类型的电影最受欢迎(最多电影数量)?(5分)

用直方图展示不同片长的电影数量分布,回答大多数电影的时长是多少?最短和最长的电影分别是哪部?(10分)

用散点图展示电影评分和片长之间的关系,查看是否有线性或非线性的关联。分析评分人数和电影评分之间的关系,看看是否评分人数多的电影容易获得较高评分;(10分)

算法末尾需同步输出个人信息以及系统时间。如(李某某大数据技术作业**模块完成时间:****年**月**日);(10分)

(注释和个人信息代码全无者不得分)

文档评论(0)

学习研究文档 + 关注
实名认证
服务提供商

计算机技术与软件专业技术资格持证人

专注于文案的个性定制,修改,润色等,具有扎实的文案功底,可承接演讲稿、读后感、任务计划书、营销方案等多方面的工作。欢迎大家咨询~

领域认证该用户于2023年04月05日上传了计算机技术与软件专业技术资格

1亿VIP精品文档

相关文档