第9章-数据质量分析.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章数据质量分析第9章数据质量分析9.1缺失值分析9.2异常值分析9.3一致性分析9.4数据特征分析第9章数据质量分析数据质量分析是数据分析(也称数据挖掘)中数据准备过程的重要环节,是数据预处理的前提,也是数据分析结论有效性和准确性的基础,没有可信的高质量数据,数据分析构建的模型将是空中楼阁。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据,具体包括缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。第9章数据质量分析9.1缺失值分析9.2异常值分析9.3一致性分析9.4数据特征分析9.1缺失值分析缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值。造成数据缺失的原因是多方面的,主要有以下几种:(1)有些信息暂时无法获取。(2)有些信息是被遗漏的。(3)有些对象的某个或某些属性是不可用的。(4)有些信息(被认为)是不重要的,如数据库的设计者并不在乎某个属性的取值。(5)获取这些信息的代价太大。缺失值的存在,对数据分析主要造成了三方面的影响:系统丢失了大量的有用信息;系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;包含空值的数据会使数据分析过程陷入混乱,导致不可靠的输出。第9章数据质量分析9.1缺失值分析9.2异常值分析9.3一致性分析9.4数据特征分析9.2异常值分析异常值分析是检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的明显偏离其余观测值的个别值,异常值也称为离群点。异常值检测方法分为:基于统计的方法、基于距离的方法、基于偏差的方法、基于密度的方法、基于聚类的方法等。(1)基于统计的方法统计方法是基于模型的方法,即为数据创建一个模型,并且根据对象拟合模型的情况来评估它们。(2)基于偏差的方法基于偏差的方法的基本思想是通过检查一组数据的主要特性来确定数据是否异常,如果一个数据的特性与给定的描述过分地偏离,则该数据被认为是异常数据。这种方法,多是该数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。9.2异常值分析异常值检测方法分为:基于统计的方法、基于距离的方法、基于偏差的方法、基于密度的方法、基于聚类的方法等。(3)箱形图分析箱形图,又称为盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况的统计图,因形状如箱子而得名。一个箱形图举例如图所示,其中应用到了分位数的概念。箱形图的绘制方法是:先找出一组数据的中位数、上四分位数、下四分位数、上限、下限;然后,连接两个四分位数画出箱子;中位数在箱子中间。上限是非异常范围内的最大值,下限是非异常范围内的最小值。第9章数据质量分析9.1缺失值分析9.2异常值分析9.3一致性分析9.4数据特征分析9.3一致性分析在数据有多份副本的情况下,如果网络、服务器或者软件出现故障,会导致部分副本写入成功,部分副本写入失败。这就造成各个副本之间的数据不一致,数据内容冲突。在数据挖掘过程中,数据不一致主要发生在数据集成的过程中,可能是由于数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。在关系型数据库中,不一致性可能存在于单个元组中、同一关系(表)的不同元组之间、不同关系(表)的元组之间。第9章数据质量分析9.1缺失值分析9.2异常值分析9.3一致性分析9.4数据特征分析9.4数据特征分析对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。9.4.1分布分析分布分析用来揭示数据的分布特征和分布类型,显示其分布情况。分布分析主要分为两种:对定量数据的分布分析和对定性数据的分布分析。(1)定量数据的分布分析面对大量的数据,可使用直方图图像来描述数据的分布情况。直方图图像由一批长方形构成,通过长方形的面积或高度来代表对应组的数据所占的比例。(2)定性数据的分布分析对于定性数据,通常根据数据的分类类型来分组,可以采用饼图和条形图来描述定性数据的分布。9.4数据特征分析9.4.2统计量分析数理统计的基本统计量包括描述数据集中趋势的统计值(平均数、中位数和众数)、描述数据离中趋势的统计量(极差、四分位数、平均差、方差、标准差和变异系数)和描述数据分布状况的统计量(偏态系数)。有了这些基本统计量,数据分析人员就掌握了数据的基本特征。通过这些基本统计量对数据进行统计分析后,可以基本确定对数据做进一步分析的方向。9.4数据特征分析9.4.3周期性分析周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。例如,要对航空旅客数量进行预测,可以先分析旅客数量的时序图来直观地估计旅客数量的变化趋势。下图是1

文档评论(0)

优美的文学 + 关注
实名认证
内容提供者

优美的文学优美的文学优美的文学优美的文学优美的文学

1亿VIP精品文档

相关文档