精华版聚类算法习笔记.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
经心整理欢迎下载聚类得界说聚类为一个将数据集分别为设干个子集得进程,并使得同一聚集内得数据对象具有较高得相似度, 而差异集会集得数据东西就为不类似得,相似或不相似得度量为基于数据 经心整理 欢迎下载 聚类得界说 聚类为一个将数据集分别为设干个子集得进程, 并使得同一聚集内得数据对 象具有较高得相似度, 而差异集会集得数据东西就为不类似得, 相似或不相似得 度量为基于数据东西形貌属性得聚类值去确定得, 通常就为使用各个聚类间得距 拜别举行形貌得; 聚类阐发得基础引导头脑为最大水平地实现类中东西相似度最 大,类间东西相似度最小; 聚类与分类差异, 在分类模子中, 存在样本数据, 这些数据得类标号为已得 得,分类得目得为从训练样本会集提取出分类得规就, 用于对其他标号未知得对 象举行类标识; 在聚类中, 预先不知道目的数据得有关类得信息, 须要以某种度 量为尺度将全部得数据东西分别到各个簇中; 因此,聚类阐发又称为无监督得学 习; 聚类紧张包罗以下几个进程: 〔1〕数据准备:包罗特性尺度化与降维; 〔2〕特性选择、提出:从最初得特性中选择为有效得特性,并将其存储于 向量中; 〔3〕特性提取:通过对所选择得特性举行转换,形成新得突出特性; 〔4〕聚类〔或分组〕:起首选择相宜特性典范得某种隔断函数 隔断函数〕举行靠近水平得度量,然后实行聚类或分组; 〔或结构新得 聚类结果评估:指对聚类结果举行评估;评估紧张有 3 种:外部有效性评估、内 部有效性评估与干系性测试评估; 聚类算法得要求 〔1〕可扩展性;许多聚类算法在小数据集〔少于 200 个数据东西〕时可以 事变很好; 但一个大数据库大概会包罗数以百万得东西; 使用采样要领举行聚类 阐发大概得到一个有弊端得结果,这时就须要可扩展得聚类阐发算法; 〔2〕处理处罚差异典范属性得本事;许多算法为针对基于区间得数值属性而设 计得;但为有些应用须要对实典范数据;如:二值典范、标志典范、序次典范, 或这些数据典范得组合; 〔3〕创造恣意形状得聚类;许多聚类算法为根据欧氏隔断与 Manhattan 距 拜别举行聚类得; 基于这类隔断得聚类要领一样寻常只能创造具有类似巨细与密度得 第 1 页,共 6 页 经心整理欢迎下载圆形或球状聚类; 而现实一个聚类为可以具有恣意形状得,因此方案可以大概创造任意开关类集得聚类算法为非常告急得;〔4〕须要〔由用户〕决定得输入参数最少; 经心整理 欢迎下载 圆形或球状聚类; 而现实一个聚类为可以具有恣意形状得, 因此方案可以大概创造任 意开关类集得聚类算法为非常告急得; 〔4〕须要〔由用户〕决定得输入参数最少;许多聚类算法须要用户输入聚 类阐发中所须要得一些参数〔如:渴望所得到聚类得个数〕 ;而聚类结果通常都 与输入参数密切干系; 而这些参数常常也很难决定, 特别为包罗高维东西得数据 集;这不光组成了用户得包袱,也使得聚类质量难以控制; 〔5〕处理处罚噪声数据得本事;大多数现实天下得数据库均包罗非常数据、不 明数据、数据丧失与噪声数据, 有些聚类算法对如许得数据非常敏感并会导致获 得质量较差得数据; 〔6〕对输入纪录序次不敏感;一些聚类算法对输入数据得序次敏感,也就 为差异得数据输入序次会导致得到非常差异得结果; 因此方案对输入数据序次不 敏感得聚类算法也为非常告急得; 〔7〕高维标题;一个数据库或一个数据堆栈大概包罗设干维属性;许多聚 类算法在处理处罚低维数据时 〔仅包罗二到三个维〕 时表达很好, 然而方案对高维空 间中得数据东西, 特别为对高维空间希奇与奇异漫衍得得数据东西, 能举行较好 聚类阐发得聚类算法已成为聚类研究中得一项寻衅; 〔8〕基于束缚得聚类;现实天下中得应用大概须要在种种束缚之下举行聚 类阐发; 假设须要在一个都市中确定一些新加油站得位置, 就须要思量诸如: 城 市中得河流、 调解路, 以及每个地域得客户需求等束缚情况下住民住地得聚类分 析;方案可以大概创造满足特定束缚条件且具有较好聚类质量得聚类算法也为一个重 要聚类研究任务; 〔9〕可说明性与可用性;用户通常渴望聚类结果为可明确得、可说明得, 以及可用得, 这就须要聚类阐发要与特定得说明与应用接洽在一起; 因此研究一 个应用得目的为怎样影响聚类要领选择也为非常告急得; 种种聚类算法先容 随着人们对数据开掘得深入研究与了解, 种种聚类算法得改进算法也相继提 出,许多新算法在前人提出得算法中做了某些方面得进步与改进, 且许多算法为 有针对性地为特定得领域而方案; 我们必须清楚地了解种种算法得优缺点与应用 领域,根据现实标题选择相宜得算法; 第 2 页,共 6 页 经心整理欢迎下载基于条理得聚类算法基于条理得聚类算法对给定命据东西举行条理上得分析,可分为凝聚算法与破碎算法;(1)自底向上得凝聚聚类要领;这

文档评论(0)

资料杂货铺 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档