- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5.2.1数据清洗的内容 (2)异常值处理。根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。 5.2.1数据清洗的内容 (3)数据类型转换。数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,比如,来自A表的“学号”是字符型,而来自B表的字段是日期型,在数据清洗的时候就需要对二者的数据类型进行统一处理。 (4)重复值处理。重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要进行重复值的删除。 5.2.2 数据清洗的注意事项 在进行数据清洗时,需要注意如下事项: (1)数据清洗时优先进行缺失值、异常值和数据类型转换的操作,最后进行重复值的处理。 (2)在对缺失值、异常值进行处理时,要根据业务的需求进行处理,这些处理并不是一成不变的,常见的填充包括:统计值填充(常用的统计值有均值、中位数、众数)、前/后值填充(一般使用在前后数据存在关联,比如数据是按照时间进行记录的)、零值填充。 (3)在数据清洗之前,最为重要的对数据表的查看,要了解表的结构和发现需要处理的值,这样才能将数据清洗彻底。 5.2.2 数据清洗的注意事项 (4)数据量的大小也关系着数据的处理方式。如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时,可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是,如果总数据量较小,则每个数据都可能影响分析的结果,这个时候就需要认真去对数据进行处理(可能需要通过其他的关联表去找到相关数据进行填充)。 (5)在导入数据表后,一般需要将所有列一个个地进行清洗,来保证数据处理的彻底性,有些数据可能看起来是正常可以使用的,实际上在进行处理时可能会出现问题(比如某列数据在查看时看起来是数值类型,但是其实这列数据的类型却是字符串,这就会导致在进行数值操作时无法使用)。 5.3 数据转换 5.3.1数据转换策略 5.3.2 平滑处理 5.3.3 规范化处理 5.3.1数据转换策略 常见的数据转换策略包括: (1)平滑处理。帮助除去数据中的噪声,常用的方法包括分箱、回归和聚类等。 (2)聚集处理。对数据进行汇总操作。例如,每天的数据经过汇总操作可以获得每月或每年的总额。这一操作常用于构造数据立方体或对数据进行多粒度的分析。 (3)数据泛化处理。用更抽象(更高层次)的概念来取代低层次的数据对象。例如,街道属性可以泛化到更高层次的概念,如城市、国家,再比如年龄属性可以映射到更高层次的概念,如年轻、中年和老年。 (4)规范化处理。将属性值按比例缩放,使之落入一个特定的区间,比如0.0~1.0。常用的数据规范化方法包括Min-Max规范化、Z-Score规范化和小数定标规范化等。 (5)属性构造处理。根据已有属性集构造新的属性,后续数据处理直接使用新增的属性。例如,根据已知的质量和体积属性,计算出新的属性——密度。 5.3.2 平滑处理 1.分箱 分箱(Bin)方法通过利用被平滑数据点的周围点(近邻),对一组排序数据进行平滑,排序后的数据被分配到若干箱子(称为 Bin)中。 如图5所示,对箱子的划分方法一般有两种,一种是等高方法,即每个箱子中元素的个数相等,另一种是等宽方法,即每个箱子的取值间距(左右边界之差)相同。 5.3.2 平滑处理 1.分箱 这里给出一个实例介绍分箱方法。假设有一个数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值的等高分箱方法对其进行平滑处理,则分箱处理的步骤如下: (1)把原始数据集X放入以下三个箱子: 箱子1:4,8,15 箱子2:21,21,24 箱子3:25,28,34 (2)分别计算得到每个箱子的平均值: 箱子1的平均值:9 箱子2的平均值:22 箱子3的平均值:29 (3)用每个箱子的平均值替换该箱子内的所有元素: 箱子1:9,9,9 箱子2:22,22,22 箱子3:29,29,29 (4)合并各个箱子中的元素得到新的数据集{9,9,9,22,22,22,29,29,29}。 5.3.2 平滑处理 此外,还可以采用基于箱子边界的等高分箱方法对数据进行平滑
您可能关注的文档
- 0大数据导论-第0章-课程介绍(2020年秋季学期).ppt
- 1大数据导论-第1章-大数据概述(2020年秋季学期).ppt
- 2大数据导论-第2章-大数据与其他新兴技术的关系(2020年秋季学期).ppt
- 3大数据导论-第3章-大数据基础知识(2020年秋季学期)-.ppt
- 4大数据导论-第4章-大数据应用(2020年秋季学期).ppt
- 5G承载网技术及部署第2章 5G系统概述.pptx
- 5G承载网技术及部署第3章 5G承载网解决方案及技术概述.pptx
- 5G承载网技术及部署第8章 5G承载网SDN技术及部署.pptx
- 5G承载网技术及部署第10章 5G承载网可靠性技术及部署.pptx
- 5艺术欣赏第五章.pptx
- 2025年宠物食品跨境电商平台物流优化策略报告.docx
- 2025年宠物食品跨境电商平台物流成本控制报告.docx
- 《2025年新能源汽车制动能量回收系统优化》.docx
- 2025年宠物食品跨境电商平台用户体验与品牌建设报告.docx
- 2025年日本农产品质量标准差异及应对策略分析.docx
- 2025年宠物食品跨境电商平台用户体验提升报告.docx
- 《2025年氢能基础设施报告:加氢站区域规划与投资回报测算》.docx
- 《储能参与电力市场报告202辅助服务收益申报效率提升》.docx
- 《2025年AI语音助手于教育机构招生咨询场景需求与语义分析》.docx
- 2025年宠物食品跨境电商平台数据分析与流量转化报告.docx
最近下载
- 2024广铁集团校招机考题库.pdf
- 职业选择与生涯发展(同名27124).doc VIP
- 新HSK考试5级试题样卷.pdf VIP
- 科学四年级上册教案.pdf VIP
- 2012年一级注册计量师法律法规强化题25.pdf VIP
- HSK标准教程5上 课件 L16.ppt VIP
- 部编一年级语文下册《5.动物儿歌》(完整版).ppt VIP
- 16 体重与节食PPT_HSK5标准教程上.pptx VIP
- 20G520-1~2(2020年合订本) 钢吊车梁(6m~9m).docx VIP
- Unit 6 There are four seasons in a year. Lesson 35 - 36(教学设计)-2024-2025学年人教精通版英语六年级上册.docx
原创力文档


文档评论(0)