数据挖掘(2析.pptVIP

下载本文档

23
0
约7.17千字
约 41页
2017-02-02 发布于福建
举报
版权申诉

数据挖掘(2析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

六、数据集成 2、模式集成数据类型冲突性别：string(Male、Female)、Char（M、F）、Interger（0、1）日期：Date、DateTime、String 数据标签冲突：解决同名异义、异名同义如：学生成绩、分数度量单位冲突百分制：100 - 0 五分制： A、B、C、D、E 字符表示：优秀、良好、及格、不及格概念不清如：前一个小时、昨天、本周、本月？聚集冲突：根源在于表结构的设计六、数据集成 3、冗余数据的处理从多个数据源中抽取不同的数据，容易导致数据的冗余不同的属性在不同的数据源中有不同的命名方式某些属性可以从其它属性中导出。例如：销售额＝单价×销售量冗余可以通过如下的分析检测出来。其中：n是元组的个数，和分别是A和B的平均值，和分别是A和B的标准差元组的“重复”也是数据冗余的一个典型方式。减少冗余数据，可以大大提高数据挖掘的性能七、数据变换数据变换是将数据转换或统一成适合于挖掘的形式，包括如下方面：光滑：从数据中消除噪音数据。包括分箱、回归和聚类。聚集：对数据进行汇总或聚集。例如，通过聚集日销售数据，计算得出月和年的销售量。数据泛化：使用概念分层，用高层概念替换低层或“原始”数据。例如，将街道泛化为城市或国家。数值属性年龄可泛化为青年、中年、老年。数据规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如：[-1.0,1.0]或[0.0,1.0]。最大-最小规范化 z-score（零－均值）规范化小数范围规范化（0–1规范化）七、数据变换属性构造：构造新的属性并添加到属性集中，以帮助数据的挖掘。由给定的属性构造并增添新的属性，以帮助提高精度和对高维数据结构的理解。例如： Area=Width × Height 销售额＝单价×销售量通过属性构造可以发现数据属性之间联系和丢失信息，对知识发现非常有用。七、数据变换数据规范化方法：最大-最小规范化对原始数据进行线性变换：通过如下线性变换：例如，假定属性income的最小与最大值分别为12000和98000，想把income映射到区间[0.0,1.0]，则73600间变换为：特点：保持了原始数据值之间的关系当有新的输入，落在原数据区之外，该方法将面临“越界”错误受到孤立点的影响可能会比较大七、数据变换 z-score（零－均值）规范化对属性基于平均值和标准差规范化例如，假定属性income的均值和标准差分别为54000和16000，使用z-score规范化，值73600转换为：特点：当属性的最大值和最小值未知，或者孤立点影响了最大－最小规范化时，该方法有效 * 第二章数据预处理东北师大软件学院、理想信息技术研究院 Email：Lixy_2008@ 李献业 Data Mining 《数据挖掘》 ■ 引言数据挖掘把对数据的应用从低层次的简单查询，提升到高层次的挖掘知识。数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语言的研究上。事实上，数据挖掘对所处理的数据是有严格要求的，因此，对数据的预处理是至关重要的，一般需要花费整个挖掘过程60%左右的时间。本章讨论数据预处理的一些主要方法。 ■为什么要进行数据预处理？在现实社会中，存在着大量的“脏”数据，不能被数据挖掘系统直接使用，表现在以下几个方面：不完整性（数据结构的设计人员、数据采集设备和数据录入人员）感兴趣属性的缺失；感兴趣的属性缺少部分属性值；仅仅包含聚合数据，没有详细数据；噪音数据（采集数据的设备、数据录入人员、数据传输）数据中包含错误的信息；存在着部分偏离期望值的孤立点； ■为什么要进行数据预处理？不一致性（数据结构的设计人员、数据录入人员）数据结构的不一致； Label的不一致；数据值的不一致；杂乱性（数据来自多个互相独立的数据源）关系数据库；多维数据库（Data Cube）；文件、文档数据库；因此，必须对源数据进行预处理，没有高质量的数据就没有高质量的数据挖掘结果。一、数据描述 1.数据类型数据集可以看作是数据对象的集合。数据对象的其他名字是记录、点、向量、模式、时间、案例、样本、观测或实体。数据对象用一组刻画对象基本特征的属性描述。属性的其他名字是变量、特性、字段、特征或维。例如，下表是学生信息的数据集。每行对应一个学生（对象），每列对应一个属性，用来描述学生的某一方面。 … … … … … 174cm