数据库与数据挖掘12.pptVIP

下载本文档

2
0
约6.05千字
约 52页
2017-03-05 发布于广东
举报
版权申诉

数据库与数据挖掘12.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第12章聚类分析一、聚类的基本概念又称为无监督学习，属于机器学习。　1. 定义：聚类就是将数据对象集合根据其相似性进行分类的过程，同类对象相似性高，不同类的对象相似性小。“物以类聚，人以群分”。聚类就是根据数据对象之间的相似性，将d维数据集V划分成 C1，C2，……，Ck 的过程，其中，，Ci一般被称为类或 “簇”． 2. 传统的聚类算法一般分为： ①基于划分的聚类算法； ②基于密度的聚类算法； ③基于层次的聚类方法； ④基于网格的聚类算法； ⑤基于模型的聚类算法。（1）基于划分的方法 partitioning methods ：给定一个有N个元组或者记录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K N。对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的记录越远越好。使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；（2）层次法 hierarchical methods ：这种方法对给定的数据集进行层次式的分解，直到某种条件满足为止。初始时每一个数据记录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等；（3）基于密度的方法 density-based methods :基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等；（4）基于网格的方法 grid-based methods :这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法； 5 基于模型的方法 model-based methods :基于模型的方法给每一个聚类假定一个模型，然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向：统计的方案和神经网络的方案。 3. 聚类过程 1 数据准备: 包括特征标准化和降维. 2 特征选择: 从最初的特征中选择最有效的特征,并将其存储于向量中. 3 特征提取: 通过对所选择的特征进行转换形成新的突出特征. 4 聚类或分组 : 首先选择合适特征类型的某种距离函数或构造新的距离函数进行相似程度的度量; 而后执行聚类或分组. 5 聚类结果评估: 是指对聚类结果进行评估. 4. 聚类算法的要求（1）可伸缩性（scalability）．实际应用要求聚类算法能够处理大数据集，且时间复杂度不能太高（2）能够处理不同类型的属性．现实中的数据对象已远远超出关系型数据的范畴，比如空间数据、多媒体数据、遗传学数据、时间序列数据、文本数据、万维网上的数据、以及目前逐渐兴起的数据流．这些数据对象的属性类型往往是由多种数据类型综合而成的．（3）能够发现任意形状的簇．（4）尽量减少用于决定输入参数的领域知识．（5）能够处理噪声数据及孤立点．（6）对输入数据记录的顺序不敏感．（7）高维性（high-dimensional）．一个数据集可能包含若干个维．高维数据空间距离公式失效。（8）能够根据用户指定的约束条件进行聚类．（有障碍物聚类）（9）聚类结果具有可解释性和可用性． 5. 聚类应用在商务上，聚类能帮助市场分析人员发现不同的消费群体，并且用购买模式来刻画不同的消费群体的特征．在生物学上，聚类可以用来辅助研究动植物的分类，可以用来分类具有相似功能的基因．聚类还可以用来从空间数据库中识别出具有相似特征的空间对象；聚类可以从保险公司的数据库中发现汽车保险中具有较高索赔概率的群体；聚类可以用来分类万维网上不同类型的文档、或分析web日志以发现特殊的访问模式等．二、相似性度量用距离度量用余弦夹角度量用Jaccard系数度量自定义数据类型：布尔变量、类别型数据、序数型数据数值型数据 1.距离计算 2.余弦夹角 3. Jaccard系