数据挖掘PPT全套课件.pptx

  1. 1、本文档共679页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘:绪论;l 数据

电子商务网站的日志

银行帐务数据

顾客购物的数据;为什么要进行数据挖掘?科学观点;什么是数据挖掘?;什么是数据挖掘?什么不是?;l 数据挖掘利用了来自如下一些领域的思想:

(1)统计学的抽样、估计、假设检验

(2)人工智能、模式识别、机器学习的搜索算法/建摸技术、学习理论

(3)最优化、进化算法、信息论、信号处理、;数据挖掘的任务;数据挖掘的任务;分类例子;聚类;关联分析:定义;数据挖掘的挑战;可伸缩;高维性;异种数据和复杂数据;BIND数据库

主要记录蛋白质互作在内的生物分子间的相互作用信息,并将其中的信息分为经过人工检查的可信信息和高通量数据信息。

DIP数据库

DIP数据库是专门存储蛋白质相互作用信息的数据库。该数据库中也包含人工检查的可靠信息和自动计算方法所获取的高通量数据。

MIPS数据库

MIPS数据库是一个跨物种的综合性数据库,包含多种数据库信息。其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作信息。

BioGrid数据库

BioGrid数据库是一个包含多物种蛋白质互作信息的数据库。数据库中包含来自多个物种的互作信息,其中即包括物理互作信息也包括遗传互作信息。;内容安排;数据挖掘:数据;目录

l 2.1数据类型

l 2.2数据质量

l 2.3数据预处理(重点)

l 2.4相似性和相异性的度量(难点);什么是数据?;属性与属性值;例2.4线段长度;属性的不同类型;属性类型 描述 例子;属性类型;用值的个数描述属性--离散和连续属性

l 离散属性

具有有限或无限可数个值

例子:ID号、计数、字母数

经常用整数表示.

l 连续属性

是取实数值的属性

例子:温度、高度、重量.

连续属性用浮点变量表示.;数据集的类型;数据集的类型;记录数据;记录数据-数据矩阵;记录数据-稀疏数据矩阵;记录数据-事务数据;基于图形的数据-带有对象之间联系的数据;公路交通网;基于图形的数据-具有图形对象的数据;具有图形对象的数据-信号转导通路;具有图形对象的数据-代谢通路;有序数据-时序数据;有序数据-时间序列数据;有序数据-时间序列数据;有序数据-序列数据;有序数据-空间数据;有序数据-空间数据;目录

l 2.1数据类型

l 2.2数据质量

l 2.3数据预处理(重点)

l 2.4相似性和相异性的度量(难点);2.2数据质量;噪声;离群点;遗漏值

l 产生遗漏值的原因

信息未收集到

例如:有的人拒绝提供年龄和体重

属性并不能用于所有对象

例如:填写学历后,填写专业,研究方向

l 处理遗漏值

删除数据对象或属性

估计遗漏值

在分析时忽略遗漏值;重复数据;目录

l 2.1数据类型

l 2.2数据质量

l 2.3数据预处理(重点)

l 2.4相似性和相异性的度量(难点);2.3数据预处理(重点);聚集;聚集-生物学例子;抽样;抽样…

l 有效抽样(样本有代表性):

使用抽样样本与使用整个数据集的效果几乎一样

如果它近似地具有与原数据集相同(感兴趣)的性质。

例子:如果感兴趣的数据对象是均值,而抽样样本具有近似于原数据集的均值

,则样本是有代表性的;抽样方法;抽样与信息损失;抽样-生物例子;抽样-生物例子;维归约;PCA;特征创建

l 由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息

l 三个一般的方法:

特征提取

映射数据到新的空间

特征构造;特征创建-映射数据到新的空间;特征创建-特征构造;离散化和二元化

l 分类属性二元化

如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数。

如果属性是有序的,则赋值必须保持序关系

然后,将这m个整数的每一个都变换成一个二进制数。需要使用 个二进位表示这些整数;例:一个具有5个值[awful,poor,ok,good

,great]的分类变量需要三个二元变量表示。;连续属性离散化

l 连续属性变为分类属性

将连续属性值排序后,通过指定n-1个分割点把他们分成n个区间

将一个区间中的所有值映射到相同的分类

–例:对x=2.1,2.4,3,3.5,4,3.2离散化为三个分类值

2.1,2.4,3,3.2,3.8,4

–设定区间(-∞,2.7],(2.7,3.5],(3.5,+∞)

–离散化为0,0,1,1,2,2;离散化

l 等宽

将属性的值域划分成具有相同宽度的区间

这种方法可能受离群点的影响而性能不佳

l 等频率

–将相同数量的对象放进每个区域

l K均值聚类;离散化;变量变换;基因芯片标准化;目录

l 2.1数据类型

l 2.2数据质量

l 2.3数据预处理

l 2.4相似性和相异性的度量;相似性和相异性的度量;各种相似度和相异度测量

文档评论(0)

159****1944 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档