- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
噪声数据的处理——分箱 用户自定义区间 用户根据需要自定义区间。 用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后 箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000 噪声数据的处理——平滑处理 分箱后对数据进行平滑处理 3种进行数据平滑方法: ①按平均值平滑 对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 ②按边界值平滑 用距离较小的边界值替代箱中每一数据。 ③按中值平滑 取箱子的中值,用来替代箱子中的所有数据。 噪声数据的处理——聚类 簇:一组数据对象集合。同一簇内的所有对象具有相似性,不同簇间对象具有较大差异性。 聚类:将物理的或抽象对象的集合分组为由不同簇,找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。 通过聚类分析发现异常数据:相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。 特点:直接形成簇并对簇进行描述,不需要任何先验知识。 噪声数据的处理——聚类 噪声数据的处理——回归 回归:发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。 方法: 线性回归(简单回归):利用直线建模,将一个变量看作另一个变量的线性函数。如:Y=aX+b,其中a、b称为回归系数,可用最小二乘法求得a、b系数。 非线性回归 噪声数据的处理——回归 x y y = x + 1 X1 Y2 Y1’ 数据集成 数据集成:将多个数据源中的数据整合到一个一致的存储中 1.模式匹配 2.数据冗余 3.数据值冲突 数据集成——模式匹配 整合不同数据源中的元数据。 实体识别问题:匹配来自不同数据源的现实世界的实体,比如: A.cust-id=B.customer_no 。 数据集成——数据冗余 同一属性在不同的数据库中会有不同的字段名。 一个属性可以由另外一个表导出。如:一个顾客数据表中的平均月收入属性,它可以根据月收入属性计算出来。 有些冗余可以被相关分析检测到 数据集成——数据值冲突 对于一个现实世界实体,其来自不同数据源的属性值或许不同。 产生的原因:表示的差异、比例尺度不同、或编码的差异等。例如:重量属性在一个系统中采用公制,而在另一个系统中却采用英制。同样价格属性不同地点采用不同货币单位。 数据变换——平滑 去除噪声,将连续的数据离散化,增加粒度 分箱 聚类 回归 数据变换——聚集 对数据进行汇总 avg(), count(), sum(), min(), max()… 例如:每天销售额(数据)可以进行合计操作以获得每月或每年的总额。 可以用来构造数据立方体 数据变换——数据概化 用更抽象(更高层次)的概念来取代低层次或数据层的数据对象 例如:街道属性,就可以泛化到更高层次的概念,诸如:城市、国家。同样对于数值型的属性,如年龄属性,就可以映射到更高层次概念,如:年轻、中年和老年。 数据变换——规范化 将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差。如将工资收入属性值映射到[-1.0,1.0]范围内。 方法: (1)最小-最大规范化 (2)零-均值规范化(z-score规范化) (3)小数定标规范化 最小-最大规范化 已知属性的取值范围,将原取值区间[old_min,old_max]映射到new_min,new_max] 保留了原来数据中存在的关系。但若将来遇到超过目前属性[old_min,old_max]取值范围的数值,将会引起系统出错 最小-最大规范化 零-均值规范化(z-score规范化) 根据属性A的均值和偏差来对A进行规格化,常用于属性最大值与最小值未知;或使用最大最小规格化方法时会出现异常数据的情况。 零-均值规范化(z-score规范化) 小数定标规范化 通过移动属性A值的小数位置,将属性A的值映射到[0,1]之间,用小数的科学表示法来达到规格化的目的。 移动的小数位数取决于属性A绝对值的最大值。 小数定标规范化 数据变换——属性构造 利用已有属性集构造出新的属性,并加入到现有属性集合中以帮助挖掘更深层次的模式知识,提高挖掘结果准确性。 例如:根据宽、高属性,可以构造一个新属性:面积。 数据归约(数据消减) 对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间。 数据归约(消减)技术用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据
您可能关注的文档
最近下载
- 2025年幼儿园校舍安全排查自查报告范文.docx
- (GB6722-2023)爆破安全规程(四).docx VIP
- 人教新起点版六年级英语上册Unit-6-Winter-Vacation-整单元ppt课件.pptx VIP
- 盖梁双抱箍法施工工法.pdf VIP
- 金天钛业-市场前景及投资研究报告-材料强国,高端制造,高端钛合金,航空深海铸就高成长.pdf VIP
- 船舶监造培训课件.ppt VIP
- 第12课 纪念白求恩(提升训练)(教师版).docx VIP
- 职业卫生与职业医学知识点汇总.pdf VIP
- DG_TJ08-202-2020:钻孔灌注桩施工标准.pdf VIP
- 山东省济南一中《中外历史纲要(上)》全册知识点复习课件(.pptx VIP
原创力文档


文档评论(0)