数据挖掘原理、_算法及应用第2章_数据预处理教材教学课件.ppt

下载文档 降价啦

23
0
约1.13万字
约 105页
2018-03-14 发布于天津
举报
版权申诉
保障服务

数据挖掘原理、_算法及应用第2章_数据预处理教材教学课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教学课件讲义PPT教学教案培训资料医学中小学上课资料

　　(4) MaxDiff。在MaxDiff直方图中，我们考虑每对相邻值之间的差。桶的边界是具有β-1个最大差的对，其中β是由用户指定的阈值。　　V-最优和MaxDiff是更精确和实用的方法。对于近似稀疏和稠密数据以及高倾斜和一致的数据，直方图具有较高的效能。直方图可以推广到多属性数据集，多维直方图能够描述属性间的依赖。研究发现，这种直方图对于多达5个属性能够有效地近似表示数据。对于更高维、多维直方图的有效性尚需进一步研究。对于存放具有高频率的孤立点，单桶是有用的。　　3. 聚类 　　聚类技术将数据行视为对象。聚类分析所得到的组或类有下述性质：同一类或类中的对象比较相似，不同组或类中的对象彼此不相似。一般的类似性基于多维空间的距离表示，用对象在空间中的“接近”程度定义。聚类的“质量”可以用“直径”表示，直径是指一个聚类中两个任意对象的最大距离。质心距离是聚类质量的另一种度量，以组或类质心(表示“平均对象”，或聚类空间中的平均点)到每个聚类对象的平均距离。图2-5所示为某城市内的大学位置的2D 图，每个聚类的质心用“＋”显示，两个数据聚类如图所示。图2-5　某城市的大学位置2D图　　在数据归约时，用数据的聚类替换原始数据。该技术的有效性依赖于数据的性质。如果数据能够组织成不同的聚类，该方法将是有效的。  　　4. 选样 　　选样可以作为一种数据归约技术使用，它采用数据的较小随机样本(子集)表示大的数据集。假定大的数据集D包含N个元组，几种选样方法如下: 　　(1) 简单选择n个样本，不回放(SRSWOR)。由D的N个元组中抽取n个样本(nN)，其中D中任何元组被抽取的概率均为1/N。即所有元组是等可能的。  　　(2) 简单选择n个样本，回放(SRSWR)。该方法类似于SRSWOR，不同在于当一个元组被抽取后，记录它，然后放回去。这样，一个元组被抽取后，它又被放回D，以便它可以再次被抽取。这样，最后的n个样本数据集中可能会出现相同的数据行。　　(3) 聚类选样。如果D中的元组被分组放入M个互不相交的“聚类”，则可以得到聚类的m个简单随机选样，这里mM。  　　(4) 分层选样。如果D被划分成互不相交的部分，称做“层”，则通过对每一层的简单随机选样就可以得到D的分层选样。特别是当数据倾斜时，这可以帮助确保样本的代表性。例如，可以得到关于顾客数据的一个分层选样，其中分层对顾客的每个年龄组创建。这样，具有最少顾客数目的年龄组肯定能够得到表示。　　采用选样进行数据归约的优点是，得到样本的花费正比例于样本的大小n，而不是数据的大小N。因此，选样的复杂性子线性(Sublinear)于数据的大小。其他数据归约技术至少需要完全扫描D。对于固定的样本大小，选样的复杂性仅随数据的维数d线性地增加，而其他技术，如使用直方图，复杂性随d指数增长。　　用于数据归约时，选样最常用来回答聚集查询。在指定的误差范围内，可以确定(使用中心极限定理)估计一个给定的函数在指定误差范围内所需的样本大小。样本的大小n相对于N可能非常小。对于归约数据集的逐步求精，选样是一种自然选择。这样的集合可以通过简单地增加样本大小而进一步提炼。 2.5　数据离散化和概念分层 2.5.1　数值数据的离散化和概念分层生成 　　对于数值属性，由于数据的可能取值范围的多样性和数据值的更新频繁，构造数值属性的概念分层是比较困难的。　　　数值属性的概念分层可以根据数据分布分析自动地构造。下面介绍五种主要的数值概念分层生成方法：分箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。　　1. 分箱 　　前面讨论了数据平滑的分箱方法。此方法也是离散化方法。例如，通过将数据分布到箱中，并用平均值或中值替换方法对箱值进行平滑，可以将属性值离散化。递归地应用这些操作处理每次的结果，就可以产生一个概念层次树。  　　2. 直方图分析 　　前面讨论的直方图也可以用于离散化处理。图2-6给出了一个等宽直方图，显示某给定数据集的数值分布。例如，大部分数据分布在0~2171。例如，在等宽直方图中，将值划分成相等的部分或区间(如(0,2171)， (2171,4342)， …， (8685,10860))。直方图分析算法递归地用于每一部分，将自动地产生多级概念分层，直到到达用户指定的层次水平后结束划分。　　【例2.2】假定某属性的最小与最大值分别为$8000和$14000。要将其映射到区间［0.0， 1.0］。按照最小-最大规范化方法对属性值进行缩放，则属性值$12600将变换为　　z-scor