- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Chapter8.聚类分析什么是聚类分析?聚类分析中的数据类型主要聚类分析方法分类划分方法〔PartitioningMethods〕分层方法基于密度的方法基于表格的方法基于模型〔Model-Based〕的聚类方法异常分析总结2024/12/191
什么是聚类分析?簇〔Cluster〕:一个数据对象的集合在同一个类中,对象之间0具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;
聚类的常规应用模式识别空间数据分析在GIS中,通过聚类发现特征空间来建立主题索引;在空间数据挖掘中,检测并解释空间中的簇;图象处理经济学(尤其是市场研究方面)WWW文档分类分析WEB日志数据来发现相似的访问模式2024/12/193
应用聚类分析的例子市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场方案;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购置了汽车保险的客户,标识那些有较高平均赔偿本钱的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;2024/12/194
什么是一个好的聚类方法?一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;2024/12/195
RequirementsofClusteringinDataMining可伸缩性能够处理不同类型的属性能发现任意形状的簇在决定输入参数的时候,尽量不需要特定的领域知识;能够处理噪声和异常对输入数据对象的顺序不敏感能处理高维数据能产生一个好的、能满足用户指定约束的聚类结果结果是可解释的、可理解的和可用的2024/12/196
Chapter8.ClusterAnalysis什么是聚类分析?聚类分析中的数据类型主要聚类分析方法分类划分方法〔PartitioningMethods〕分层方法基于密度的方法基于表格的方法基于模型〔Model-Based〕的聚类方法异常分析总结2024/12/197
两种数据结构数据矩阵(twomodes)差异度矩阵(onemode)2024/12/198
评价聚类质量差异度/相似度矩阵:相似度通常用距离函数来表示;有一个单独的质量评估函数来评判一个簇的好坏;对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论;根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系;很难定义“足够相似了”或者“足够好了”只能凭主观确定;2024/12/199
聚类分析中的数据类型区间标度变量〔Interval-scaledvariables〕:二元变量〔Binaryvariables〕:标称型,序数型和比例型变量〔Nominal,ordinal,andratiovariables〕:混合类型变量〔Variablesofmixedtypes〕:2024/12/1910
区间标度变量数据标准化计算绝对偏差的平均值:其中计算标准度量值(z-score)使用绝对偏差的平均值比使用标准偏差更健壮〔robust〕2024/12/1911
计算对象之间的相异度通常使用距离来衡量两个对象之间的相异度。常用的距离度量方法有: 明考斯基距离〔Minkowskidistance〕:其中i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维的数据对象,q是一个正整数。当q=1时,d称为曼哈坦距离〔Manhattandistance〕2024/12/1912
SimilarityandDissimilarityBetweenObjects(Cont.)当q=2时,d就成为欧几里德距离:距离函数有如下特性:d(i,j)?0d(i,i)=0d(i,j)=d(j,i)d(i,j)?d(i,k)+d(k,j)可以根据每个变量的重要性赋予一个权重2024/12/1913
二元变量二元变量的可能性表 其中每个对象有p个变量,且 p=a+b+c+dObjectiObjectj2024/12/1914
二元变量对称的 如果一个二元变量的两个状态是同等价值的,具有相同的权重。即可以任取其中一种状态编码为1或者0 对于对称的二员
文档评论(0)