- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据清洗第五章第二篇方法篇
1.了解数据关联、数据合并2.了解数据转换与数据规约3.理解数据质量评估的标准4.掌握数据集成的内涵5.掌握数据清洗的内涵和方法学习目标知识结构图
引导案例大数据也要“清洗”专家建议加快大数据清洗基地建设,保护信息安全据新华社电(记者张辛欣张旭东)大数据也要清洗?是的,你没看错。数字化、智能化时代,大数据产业急需通过“清洗”技术对数据进行甄别、筛选和应用,剔除无效信息,加强隐私保护。在青岛召开的2016全球大数据应用研究论坛上,多位业内专家建议我国加快大数据清洗基地建设。大数据应用于生活,信息的甄别和提取是第一步。大数据清洗,就是用电脑把不规则的数据制作成规则的数据,让它们发挥价值。“如同河水必须经过净化才能饮用一样,过滤、漂白、杀毒的过程,就是大数据的‘清洗’过程。”中国大数据行业领军人物、贵阳大数据交易所执行总裁王叁寿在会上说。专家认为,大数据的清洗,不仅有利于提高搜索处理效率,还能加速大数据产业与各行各业的融合,加快应用步伐。比如,通过对家电、物流等多个行业数据整合、过滤,能更好地设计出智能家居方案等。“大数据清洗也是安全使用的前提。”科大讯飞高级副总裁张友国说。加强大数据清洗,将对用户信息多一层保护。与会专家认为,随着大数据产业快速发展,数据清洗的重要性与日俱增,建议加快大数据清洗基地建设,同步构建大数据安全体系,用新方法来解决大数据安全问题。思考:如何来提高人力资源数据的质量?
第一节数据集成第二节数据转换与数据规约第三节数据清洗的内涵与方法目录第四节人力资源数据清洗
第一节数据集成第一章第二篇方法篇
一、数据关联数据关联的神奇之处就在于,它很容易就能够与其他关联数据组合在一起,从而构成新的知识,这也是探索并使用关联数据的最好理由。它打破了传统的数据管理技术的封闭、不宜重组的问题,让数据从原来的孤岛中解放出来,使数据关联成为数据共享中一种奇妙的新技术。
二、数据合并数据合并其实是数据文件的合并。在实际操作过程中,有时候需要把多个数据文件合并为一个数据文件。例如,一个公司在全国各地有30多个分公司,每个月公司总部需要把各分公司的人员工资情况合并到一个数据文件中,这就是一个数据合并的过程。每个子公司的人员工作情况数据文件中的变量(或者属性)都相同,不同的只是人员。合并数据文件一般分为添加变量(或称为合并变量)和添加个案(或称为合并记录、合并个案)。
三、数据集成数据集成,即将来自多个数据源的数据,如数据库、数据立方(多维数据库)、普通数据文件等,结合在一起形成统一的数据集合,以便为后续的数据分析提供完整的数据基础。数据集成一般有三种基本策略,分别是联邦数据库(federateddatabase)、数据仓库(datawarehousing)、中介者(mediation)。数据表的连接方式包括以下四种(图5-1)。
第二节数据转换与数据规约第一章第二篇方法篇
一、数据转换(一)数据类别转换数据的字段类型包括数值型、文本型和日期时间型。一般来讲,最常见的是将文本型转换为数值型,以方便机器学习算法的后续处理。定类数据也称定性数据,用于标明数据所描述的主题对象的类别或者属性、名称,如人名、事物名等。定序数据也称序列数据,用于对事物所具有的属性顺序进行描述,可以用数字或序号进行排序,进行比较。转换数据分类
一、数据转换(二)数据规范化数据规范化是指将数据按比例缩放,使其落入一个小的特定区间(如“-1,1”或“0,1”),以利于进行数据挖掘。常见的数据规范化方法包括:1.小数缩放2.最小—最大规范化3.标准差规范化
一、数据转换(三)数据泛化数据泛化,指的是用更抽象(更高层次)的概念来取代低层次的数据对象。例如,员工基本信息中的年龄,原始数据是连续性的数值,如20—60岁,可以映射到更高层次的概念,如20—30岁、31—40岁、41—50岁、51—60岁。
二、数据规约1.KMO检验2.巴特利(Bartlett)球形检验因子分析的一般过程(一)判断数据是否符合因子分析的要求(二)确定因子个数(三)确定公因子并进行赋值数据规约的主要目的就是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据集保持原有数据集的信息完整性。
第三节数据清洗的内涵与方法第一章第二篇方法篇
一、数据清洗的内涵数据清洗通常是通过清洗脏数据、填写缺失的值、光滑噪声数据、清洗重复数据、识别或删除离群点并解决不一致性来“清理”数据。数据清洗的主要目标有格式标准化、异常数据清除、错误纠正、重复数据的清除。
二、数据质量评估标准在清洗数据之前,要对已经获得的数据
您可能关注的文档
最近下载
- 2025年1月黑龙江高中学业水平合格考数学试卷真题(含答案详解).docx VIP
- 2025年1月黑龙江高中学业水平合格考数学试卷真题(含答案详解).docx VIP
- 影视剧导演聘用合同模板(经纪合同)5篇.docx VIP
- 五年级上册语文习作我的心爱之物人教部编版.ppt VIP
- 鸭人工授精技术.docx VIP
- 01-地质灾害风险调查评价技术要求1:5万(试行).doc VIP
- 注射用血塞通(冻干)临床应用.doc VIP
- 基本药物处方—血塞通注射液、注射用血塞通(冻干).docx VIP
- 2024丽水市遂昌县辅警考试真题及答案.docx VIP
- 2016血塞通注射液临床使用合理性与安全性再评价.pdf VIP
文档评论(0)