- 1、本文档共95页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章数据清洗概述
第2章数据格式类型与编码
第3章电子表格与文本编辑器
第4章基本技术与方法
第5章数据抽取
第6章数据转换和加载
数据清洗概述
主讲:XXX
3数据仓库
正常PPT课件
数据标准化
1数据清洗简介
数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或应用要求的数据。
数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业。数据清洗主要有三个应用领域:数据仓库(DataWarehouse,DW)、数据库中知识的发现(KnowledgeDiscoveryinDatabase,KDD)和数据质量管理(DataQualityManagement,DQM)。
数据清洗流程包含以下基本步骤:
(1)分析数据并定义清洗规则。
(2)搜寻并标识错误实例。
(3)纠正发现的错误。
(4)干净数据回流。
(5)数据清洗的评判。
本课件是可编辑的正常PPT课件
(1)数据清洗环境,其为进行数据清洗所提供的基本硬件设备和软件系统,特别是已得到广泛应用的开源软件和工具。
(2)终端窗口和命令行界面,比如MacOSX上的Terminal程序或Linux上的bash程序。
(3)适合程序员使用的编辑器,如Mac上的TextWrangler,Linux上的vi或emacs,或是Windows上的Notepad++、Sublime编辑器等。
(4)Python客户端程序,如EnthoughtCanopy。另外,还需要足够的权限来安装一些程序包
文件。
(5)电子表格程序,如MicrosoftExcel和GoogleSpreadsheets。其可用于数据呈现和可视化,
并且以恰当的方式展示数据分析和挖掘的结果。
(6)数据库软件,如MySQL数据库和MicrosoftAccess等。
本课件是可编辑的正常PPT课件
数据标准化规范化(DataStandardization/Normalization)是机构或组织对数据的定义、组织、分类、记录、编码、监督和保护进行标准化的过程,有利于数据的共享和管理,可以节省费用,提高数据使用效率和可用性。
数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,必须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,然后再加总才能得出正确结果。
数据无量纲化处理主要用于消除变量间的量纲关系,解决数据评价分析中数据的可比性。例如,多指标综合评价方法需要把描述评价对象不同方面的多个信息综合起来得到一个综合指标,由此对评价对象做整体评判,并进行横向或纵向比较。
本课件是可编辑的正常PPT课件
(1)max-min标准化
对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过max-min标准化映射成在区间[0,1]中的值x,其公式为:x=(x-minA)/(maxA-minA)。
(2)z-score标准化
基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,将A的原始
值x标准化到x,其公式为:x¹=(x-mean)/standarddeviation。
(3)Decimalscaling标准化
通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x到x的计算方法公式为:x¹=x/(10^j)。其中,j是满足条件的最小整数。
(4)其他标准化方法
还有一些标准化方法的做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标准化。如果原始数据除以每行或每列中的最大值,叫做最大值标准化。如果原始数据除以行或列的和的平方根,则称为模标准化(ne课俾是古编辑的业常P个课件
数据仓库(DataWarehouse,DW)是基于信息系统业务发展需要,基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用技术,目标是通过提供全面、大量的数据存储来有效支持高层决策分析。
典型数据仓库的基本组成要素包括:
(1)源数据单元
(2)数据准
您可能关注的文档
- 小波去噪(大学论文).docx
- 噪音测试仪设计-课程设计.docx
- 办公楼钢结构工程施工质量计划secert.docx
- 《大体积混凝土温度测控技术规范+GBT+51028-2015》详细解读.pptx
- 《尘肺病治疗中国专家共识(2024年版)》解读PPT课件.pptx
- 消化道出血病人的护理.pptx
- 华为(HW)干部队伍建设实践解析.pptx
- 尘肺病治疗中国专家共识(2024年版).pptx
- 2024年高考生物(辽宁、吉林、黑龙江卷)真题详细解读及评析.pptx
- 2023飞轮储能技术在新能源一次调频上的应用.docx
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
最近下载
- 海港总体设计规范,JTS165-2013.docx
- 六年级上册语文-晨读晚默(33页).pdf
- 2019年昆明呈贡公园概念设计(城市规划、景观园林专业资料).ppt
- 2023-2024在线学习课堂网课《伤寒论临证应用规律解析》单元测试考核答案.pdf
- v20变频器说明书.pdf
- 食品安全风险管控清单(蛋制品生产).docx VIP
- 药事管理与合理用药的现状及临床分析.docx
- ASUS华硕主板玩家国度(ROG)ROG MAXIMUS Z790 EXTREME 简体中文版使用手册.pdf
- “双带头人”教师党支部书记工作室申报书.docx VIP
- 2023年北京中考数学重难题型01新定义创新型综合压轴问题(13-22年最后一题+真题10道模拟30道)含详解.pdf VIP
文档评论(0)