- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据预处理
5.1为什么要预处理数据
不完整、不一致、含有噪声的数据是现实世界数据的共同特点。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
5.2数据清洗
现实世界的数据大多是不完整的、不一致的、含有噪声的“脏数据”。不完整数据需要通过数据清洗方法来清理数据。数据清洗通过填写空缺的值,识别异常值,消除噪声,并纠正数据中的不一致来清理数据。
5.2.1缺失值处理
常将数据集中不含缺失值的变量称为完全变量,把含有缺失值的变量称为不完全变量。;
数据中的缺失值会影响挖掘的正常进行,可能造成挖掘结果的不正确。以下是缺失值处理的几种方法:
(1)删除
将存在缺失信息属性值的样本(行)或特征(列)删除,从而得到一个完整的数据表。
优点是简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比较小的情况下非常有效。缺点是当缺失数据所占比例较大,特别当缺失数据是非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
(2)特殊值填充
将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。例如,所有的空值都用同一个常数“unknown”来填充。
(3)统计值填充
将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。
如果空值所在列是数值型的,就根据该属性在其他所有对象的取值的统计值,例如,平均值、中位数、最大值或者最小值等来填充;如果空值所在列是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值,即出现频率最高的值,来补齐缺失值。
(4)条件统计值填充
借助另外一个属性的值。例如,如果将顾客按照信用等级分类,则用具有相同信用等级的顾客的收入的
统计值(如平均收入)替换收入列中的缺失值。
(5)使用机器学习算法填充
使用回归、K-近邻等机器学习的方法来构建模型,将已知属性值代入模型来估计未知属性值,以此估计值来进行缺失填充。
(6)不处理缺失值
不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法。???些机器学习的方法算法本身就可以处理缺失值。例如,决策树和随机森林等。;
5.2.2异常值识别
异常值通常被称为“离群点”,它显著不同于其他数据对象,与其他数据分布有较为显著的不同。当为机器学习模型准备数据集时,检测出所有的异常值后,要么移除它们;要么分析它们以了解其最初存在的原因是非常重要的。常用的异常值识别的方法:
(1)简单的统计分析
拿到数据后,可以对数据进行一个简单的描述性统计分析。例如,用最大值、最小值,可以用来判断这个变量的取值是否超过了合理的范围,如客户的年龄为-20岁或200岁,显然是不合常理的,视为异常值。
(2)3σ原则
在统计学中,如果一个数据分布近似正态分布,在3σ原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3o之外的值出现的概率为P(Ix-u|3σ)≤0.003,属于极个别的小概率事件;如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
(3)箱型图;
聚类就是将数据集中的对象根据特征相似程度分成若干个类或簇(cluster),在同一个类中的对象之间具有较高的相似度,而不同类中的对象差别较大。直观地看,落在聚类集合之外的值被视为异常值,如图5-3所示。
(5)基于回归
回归分析(RegressionAnalysis)指的是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法。
使用回归算法进行异常值识别,主要指的是在特定模型的基础上相对远离预测值的值,而非考虑样本特征(自变量)之间的关系。真实值与模型预测值之间的差值可以用来衡量这个数据点是多么异常。;
1.分箱
分箱方法通过考察数据的“邻居”(即周围的数据值)来平滑数据。在这种方法中,首先对数据进行排序,然后将排序后的值分配到多个“桶”或“箱”中,即分箱。由于分箱方法参考邻居的值,所以它进行的是局部平滑。
如何对数据进行分箱?下面介绍两种基本的分箱方法。
(1)等宽(距)法
将数据值从最小值到最大值分成具有相同宽度的K个区间(箱),K由数据特点决定,往往是需要有业务经验的人进行评估。假设某个属性的最小值表示为Min,最大值表示为Max,箱的个数为K,则箱宽(W)的计算公式为:
箱宽(W)=(Max-Min)/K(5-1)
因此,第i个区间的范围可以表示为[Min+(i-1)W,Min+iW]],其中i=1,2,3..…K。
例如,对数据集[5,10
您可能关注的文档
最近下载
- 财务审计服务方案投标文件(技术方案).doc
- 广工数据挖掘复习(绩点4.7)_数据挖掘知识点总结资.doc
- 新解读《GB_T 2567-2021树脂浇铸体性能试验方法》最新解读.pptx VIP
- 1-JTG C20-2011 公路工程地质勘察规范.pdf
- 软件设计与体系结构智慧树知到期末考试答案2024年.docx VIP
- 培训课件--剧毒化学品管理.ppt VIP
- PW5410A_2.0数据手册下载.pdf VIP
- 《英语(师范)英语文学导论》课程教学大纲.pdf VIP
- 25秋二上语文写字表注音练习【空白】(250个字).pdf VIP
- 《义务教育英语课程标准》(2025年版).pptx VIP
原创力文档


文档评论(0)