第6章 聚类分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 第六章 聚类分析 聚类( )是一个将数据集划分为若干组( )或类( )的 过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象 是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就 是利用(各对象间)距离来进行表示的。许多领域,包括数据挖掘、统计学和机 器学习都有聚类研究和应用。 本章将要介绍对大量数据进行聚类分析的有关方法;同时也还将介绍如何根 据数据对象的属性来计算各数据对象之间的距离(不同)。有关的聚类方法(类 型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基 于模型类方法。此外本章的最后将要介绍利用聚类方法进行异常数据( ) 检测的有关内容。 将一组( )物理的或抽象的对象,根据它们之间的相似程度,分为若干 组( );其中相似的对象构成一组,这一过程就称为聚类过程( )。 一个聚类( )就是由彼此相似的一组对象所构成的集合;不同聚类中对象 是不相似的。就是从给定的数据集中搜索数据项( )之间所存在的有价值 联系。在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析 等操作。 聚类分析是人类活动中的一个重要内容。早在儿童时期,一个人就是通过不 断完善潜意识中的分类模式,来学会识别不同物体,如:狗和猫,或动物和植物 等。聚类分析已被应用到许多领域,其中包括:模式识别、数据分析、图像处理 和市场分析等。通过聚类,人可以辨认出空旷和拥挤的区域,进而发现整个的分 布模式,以及数据属性之间所存在有价值的相关关系。 聚类分析的典型应用主要包括,在商业方面,聚类分析可以帮助市场人员发 现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征 的顾客组群。在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构 ( ),以及根据基因功能对其进行分类以获得对人群中所固有的结构更 深入的了解。聚类还可以从地球观测数据库 中帮助识别具有相似的土地使用情况 的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。作为数据 挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的 数据挖掘 第六章 聚类分析 分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。当然聚 类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。 数据聚类分析是一个正在蓬勃发展 的领域。聚类分析所涉及的领域包括:数 据挖掘、统计学、机器学习、空间数据库技术 、生物学和市场学等。由于各应用 数据库所包含的数据量越来越 大,聚类分析已成为数据挖掘研究中一个非常活跃 的研究课题 。 作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中 在基于距离的聚类分析方面。许多统计软件 包,诸如: - 、 和 , 都包含基于 -均值、 -中心等其它许多聚类分析工具。 在机器学习中,聚类分析属于一种无 (教师 )监督 的学习方法。与分类学习 不同,无 (教师 )监督 学习不依靠事先确定的数据类别,以及标有数据类别的学 习训练样本集合。正 因为如此,聚类分析又是一种通过观察 学习方法 (

文档评论(0)

精品书屋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档