数据挖掘(2析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
六、数据集成 2、模式集成 数据类型冲突 性别:string(Male、Female)、Char(M、F)、Interger(0、1) 日期:Date、DateTime、String 数据标签冲突:解决同名异义、异名同义 如:学生成绩、分数 度量单位冲突 百分制:100 - 0 五分制: A、B、C、D、E 字符表示:优秀、良好、及格、不及格 概念不清 如:前一个小时、昨天、本周、本月? 聚集冲突:根源在于表结构的设计 六、数据集成 3、冗余数据的处理 从多个数据源中抽取不同的数据,容易导致数据的冗余 不同的属性在不同的数据源中有不同的命名方式 某些属性可以从其它属性中导出。例如:销售额=单价×销售量 冗余可以通过如下的分析检测出来。 其中:n是元组的个数, 和 分别是A和B的平均值, 和 分别是A和B的标准差 元组的“重复”也是数据冗余的一个典型方式。 减少冗余数据,可以大大提高数据挖掘的性能 七、数据变换 数据变换是将数据转换或统一成适合于挖掘的形式,包括如下方面: 光滑:从数据中消除噪音数据。包括分箱、回归和聚类。 聚集:对数据进行汇总或聚集。例如,通过聚集日销售数据,计算得出月和年的销售量。 数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,将街道泛化为城市或国家。数值属性年龄可泛化为青年、中年、老年。 数据规范化:将属性数据按比例缩放,使之落入一个小的特定区间, 如:[-1.0,1.0]或[0.0,1.0]。 最大-最小规范化 z-score(零-均值)规范化 小数范围规范化(0–1规范化) 七、数据变换 属性构造:构造新的属性并添加到属性集中,以帮助数据的挖掘。 由给定的属性构造并增添新的属性,以帮助提高精度和对高维数据结构的理解。例如: Area=Width × Height 销售额=单价×销售量 通过属性构造可以发现数据属性之间联系和丢失信息,对知识发现非常有用。 七、数据变换 数据规范化方法: 最大-最小规范化 对原始数据进行线性变换: 通过如下线性变换: 例如,假定属性income的最小与最大值分别为12000和98000,想把income映射到区间[0.0,1.0],则73600间变换为: 特点: 保持了原始数据值之间的关系 当有新的输入,落在原数据区之外,该方法将面临“越界”错误 受到孤立点的影响可能会比较大 七、数据变换 z-score(零-均值)规范化 对属性基于平均值和标准差规范化 例如,假定属性income的均值和标准差分别为54000和16000,使用z-score规范化,值73600转换为: 特点: 当属性的最大值和最小值未知,或者孤立点影响了最大-最小规范化时,该方法有效 * 第二章 数据预处理 东北师大软件学院、理想信息技术研究院 Email:Lixy_2008@ 李 献 业 Data Mining 《数据挖掘》 ■ 引言 数据挖掘把对数据的应用从低层次的简单查询,提升到高层次的挖掘知识。 数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语言的研究上。 事实上,数据挖掘对所处理的数据是有严格要求的,因此,对数据的预处理是至关重要的,一般需要花费整个挖掘过程60%左右的时间。 本章讨论数据预处理的一些主要方法。 ■为什么要进行数据预处理? 在现实社会中,存在着大量的“脏”数据,不能被数据挖掘系统直接使用,表现在以下几个方面: 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 感兴趣属性的缺失; 感兴趣的属性缺少部分属性值; 仅仅包含聚合数据,没有详细数据; 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息; 存在着部分偏离期望值的孤立点; ■为什么要进行数据预处理? 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致; Label的不一致; 数据值的不一致; 杂乱性(数据来自多个互相独立的数据源) 关系数据库; 多维数据库(Data Cube); 文件、文档数据库; 因此,必须对源数据进行预处理,没有高质量的数据就没有高质量的数据挖掘结果。 一、数据描述 1.数据类型 数据集可以看作是数据对象的集合。 数据对象的其他名字是记录、点、向量、模式、时间、案例、样本、观测或实体。 数据对象用一组刻画对象基本特征的属性描述。 属性的其他名字是变量、特性、字段、特征或维。 例如,下表是学生信息的数据集。每行对应一个学生(对象),每列对应一个属性,用来描述学生的某一方面。 … … … … … 174cm

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档