- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘
聚类分析与孤立点检测“物以类聚,人以群分”
什么是聚类分析?聚类(簇):数据对象的集合,使得在同一个聚类(簇)中的对象彼此相似不同簇中的对象则尽可能相异(如何度量)聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤
聚类分析的典型应用模式识别空间数据分析在GIS系统中,对相似区域进行聚类,产生主题地图检测空间聚类,并给出它们在空间数据挖掘中的解释图像处理经济学(尤其是市场研究)万维网对WEB上的文档进行分类对WEB日志的数据进行聚类,以发现相同的用户访问模式
聚类分析应用实例市场营销:帮市场分析人员从客户基本库中发现不同的客户群,从而可以对不同的客户群采用不同的营销策略土地使用:在地球监测数据库中,发现相同的土地使用区域保险业:发现汽车保险中索赔率较高的客户群城市规划:根据房子的类型、价值和地理位置对其进行分组地震研究:将观测到的震中点沿板块断裂带进行聚类,得出地震高危区
什么是好的聚类分析?一个好的聚类分析方法会产生高质量的聚类高类内相似度低类间相似度作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法聚类方法的所使用的相似性度量和方法的实施方法发现隐藏模式的能力
数据挖掘对聚类分析的要求(1)可扩展性(Scalability)大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率,数据挖掘需要考虑数百万条数据处理不同数据类型的能力数字型;二元类型,分类型/标称型,序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的用于决定输入参数的领域知识最小化对于高维数据,参数很难决定,聚类的质量也很难控制处理噪声数据的能力对空缺值、孤立点、数据噪声不敏感
数据挖掘对聚类分析的要求(2)对于输入数据的顺序不敏感同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果高维度高维度的数据往往比较稀松,而且高度倾斜基于约束的聚类找到既满足约束条件,又具有良好聚类特性的数据分组可解释性和可用性聚类要和特定的语义解释和应用相联系
聚类分析中的数据的表示许多基于内存的聚类算法采用以下两种数据结构数据矩阵:用p个变量来表示n个对象也叫二模矩阵,行与列代表不同实体相异度矩阵:存储n个对象两两之间的近似性也叫单模矩阵,行和列代表相同的实体
聚类算法的基础--相异度聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型的变量
区间标度变量区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下转化:计算平均的绝对偏差其中计算标准化的度量值(z-score)使用平均的绝对偏差往往比使用标准差更具有健壮性
对象间的相似度和相异度(1)对象间的相似度和相异度是基于两个对象间的距离来计算的Euclidean距离i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维数据对象Manhattan距离
对象间的相似度和相异度(2)Manhattan距离和Euclidean距离的性质d(i,j)?0d(i,i)=0d(i,j)=d(j,i)d(i,j)?d(i,k)+d(k,j)Minkowski距离上式中,q为正整数,如果q=1则表示Manhattan距离,如果q=2则表示Euclidean距离
二元变量的相似度计算(1)一个二元变量只有两种状态:0或1;e.g.smoker来表示是否吸烟一个对象可以包含多个二元变量。二元变量的可能性表:如何计算两个二元变量之间的相似度?ObjectiObjectj
计算(2)对称的VS.不对称的二元变量对称的二元变量指变量的两个状态具有同等价值,相同权重;e.g.性别基于对称的二元变量的相似度称为恒定的相似度,可以使用简单匹配系数评估它们的相异度:不对称的二元变量中,变量的两个状态的重要性是不同的;e.g.HIV阳性VSHIV阴性基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度
二元变量的相异度——示例例8.1二元变量之间的相异度(病人记录表)Name是对象标识gender是对称的二元变量其余属性都是
网络工程师持证人
本人已从事浙江省工程咨询5年,对浙江省内工程信息非常熟悉,可获取新建工程相关联系人、设计院、业主等关键信息。另外从事楼宇自控专业已10年,考取了一建二建等资格证书,有关考试方面的问题(考试心得、方法、学习资料等)都欢饮来咨询交流。
文档评论(0)