网站大量收购闲置独家精品文档,联系QQ:2885784924

《财税大数据分析》课件——任务二 大数据处理.pptxVIP

《财税大数据分析》课件——任务二 大数据处理.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据处理项目二大数据的采集、处理与挖掘任务二大数据处理

一数据缺值补全

缺失值对数据挖掘来说,空值的存在,造成了以下影响:丢失了大量的有用信息;数据所表现出的不确定性更加显著,其中蕴涵的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。在各种实用的数据库中,数据属性值缺失的情况经常发生甚至是不可避免的。

缺失值处理的方法:(1)删除操作(2)补全操作缺失值

缺失值处理的方法删除操作当某个特征上面的数据缺失太大的时候,直接将这个特征删除。当特征上面的缺失值很少的时候,比如只有几个缺失值的时候,可以考虑把包含这些缺失值的元组进行删除。缺失值处理的方法

缺失值处理的方法补全操作如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,则使用众数来补齐该缺失的变量值。(1)均值填充法缺失值处理的方法

缺失值处理的方法补全操作在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。(2)热卡填充填补法缺失值处理的方法

缺失值处理的方法补全操作回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。(3)回归填充法缺失值处理的方法

缺失值处理的方法补全操作极大似然估计、期望最大化法、K最近距离邻法等。(4)其它填充方法缺失值处理的方法

在处理缺失值时,可以对缺失值进行舍弃或补全,但在实际数据中,如果缺失数据占据了相当的比重,舍弃缺失数据则会丢失大量信息,不利于后续数据的处理和分析。数据缺失值补全是数据清理中十分重要的一步。任务描述

任务要求上传子任务一中保存的经过数据清洗的文件,即清洗后的电商评论数据。选择恰当的补全方法,将表中的空缺值进行补全,对无图片的评价记录填写无图评价。任务描述

(1)登录大数据处理平台,选择“大数据处理”下的“数据清洗”,打开数据清洗页面。任务实现

点击【上传文件】,将任务一采集的唯品会的评论数据文件上传到平台中。任务实现

选择数据源为之前上传的数据源,数据显示选择“显示50行”。任务实现

(2)数据清洗步骤参照子任务一,此处略过这一步,继续单击【下一步】,进入缺失值插补步骤。任务实现

(3)根据任务要求,在缺失值插补页面设置缺失值规则,选择“为空缺失值插补”,字段选择为“评论图片”,插补要求选择为“默认值补缺”,默认值填写为“无图评价”。任务实现

(4)设置完成后点击【执行插补】,执行成功后在下方“数据预览”处查看并下载excel表格。任务实现

二数据转换

数据转换数据转换长度统一转换日期格式转换短信消息转换订单信息转换……将同一数据字段规范成统一的长度将非结构化的短信消息转换成结构化的数据将消息格式的订单转换成结构化的数据将不同格式的日期统一成相同的格式将数据转换成规范、结构化的形式,以便更好地理解和处理。

对数据进行规范化处理,将上传的excel表格中的数据进行数据转换,以实现字段精度统一、日期格式转换等功能。将数据转化为适当的形式,适用于之后数据挖掘的需要。任务描述

对“销售订单(一)”表里的数据做数据转换,要求单据编号为10位,如不足的右边补0,要求商品编号为7位,不足的左边补*。“销售订单(一)”表展示:任务要求

(1)登录大数据处理平台,选择“大数据处理”下的“数据转换。任务实现

打开数据转换页面,点击【上传文件】,将需要转换的文件上传到平台中,选择数据源为之前上传的数据源,点击【下一步】。任务实现

(2)在数据转换规则页面点击【添加规则】,按案例任务要求填写完成规则后,点击【执行转换】。任务实现

(3)执行成功后可在页面下方的“数据预览”中看见转换后的数据,并且可以通过下载将数据下载到excel中。任务实现

谢谢

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档