商务智能原理与方法(第三版) 课件汇总 ch09 聚类分析 --- ch18 商务智能的经济 - 副本.pptx

商务智能原理与方法(第三版) 课件汇总 ch09 聚类分析 --- ch18 商务智能的经济 - 副本.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

聚类分析普通高等教育“十一五”国家级规划教材商务智能原理与方法(第三版)第九章

01聚类分析简介

通过聚类过程将一群物理的或抽象的对象分为若干组,每组由相似的对象构成,称为一个类别(Cluster)。通常在很多应用中,为了简化问题或处理上的方便,同一个类别中的所有对象由于具有高度相似性,常常可以被当作一个对象来进行分析和处理,从而提高了分析和处理的效率。聚类分析简介1)孤立点(Outlier):不属于任何类别的数据对象,而且会在很大程度上影响聚类的效果和效率。(3)类别的语义(SemanticMeaning)解释:聚类结果的类别是根据数据自身特点产生的,与事先定义好类别的分类方法相比,每个类别的语义解释可能会困难得多。(2)动态数据(DynamicData):数据库中的数据会随时间发生变化,数据库中数据的变化也会影响聚类结果。(4)无完全正确解(NoCorrectAnswer):可能找到许多聚类的解,没有一个是完全正确的聚类结果,结果的类别数量也不易确定,往往需要一些相关背景和专业知识的帮助。聚类分析简介聚类方法应用到现实世界的具体数据库上时可能遇到许多有趣而又很重要的问题

02相似度与距离测度

在进行聚类分析前,首先需要了解聚类分析中的相似度测度,因为只有确定了描述数据对象之间相似度的测度,才能将该测度作为聚类的标准并设定相应的聚类目标,即在同一类别中的数据对象的相似度较大,而不同类别中的数据对象的相似度较小。相似度与距离测度

03聚类分析方法

聚类分析方法主要可以分为划分方法(PartitioningMethods)、层次方法(HierarchicalMethods)、基于密度的方法(Density-basedMethods)、基于网格的方法(Grid-basedMethods)和基于模型的方法(Model-basedMethods)。聚类分析方法

层次方法(HierarchicalMethods)是将数据对象分为若干组并形成一个以不同规模的组为节点的树形结构来进行聚类。层次聚类方法又可以分为自下而上和自上而下的方法。基于网格的方法(Grid-basedMethods)采用的是一种多解析度的网格数据结构。该方法将空间量化为有限数目的单元,这些单元形成了网格结构,所有聚类操作都在网格上进行。划分方法是最基本的聚类方法划分方法的主要思路如下:给定一个包含n个数据对象的数据集,该方法首先将数据集进行初始的k(k≤n)个划分。基于密度的方法(Density-basedMethods)的基本思路是:只要一个类别中数据点的密度大于某阈值,就把它加到与之相近的类别中。聚类分析方法基于模型的方法(Model-basedMethods)试图将给定的待聚类数据与某种数学模型达成最佳拟合。

04k-means方法

K-means方法的基本思路如下:以最终要得到的类别个数k为参数,首先从n个数据对象中任意选择k个对象作为初始类别中心,而对于所剩下的其他对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)类别,然后计算每个所获新类别的类别中心(该类别中所有对象的均值);不断重复这个过程,直到所设定的偏差测度函数开始收敛为止。k-means方法

(1)算法简单、快速,应用广泛。(2)计算复杂度为O(nxk×t),因此它在处理大数据库时也是相对有效的,具有可扩展性,其中n为数据库中对象个数,k为类别个数,而t为循环次数,通常kn,tn。(3)可找出使得均方差函数最小的k个划分,当结果类别是密集且类别之间区别明显时,聚类效果较好。k-means方法k-means方法有以下优点:

(1)需要计算类别对象的均值(重心),因此一般只适用于类别均值有意义的情况。(2)需要用户事先指定类别个数k,并对选择作为初始类别中心的数据点较为敏感,对于不同的初始值,可能导致不同的聚类结果。k-means算法常常有可能终止于局部最优。(3)不适合发现非凸形状的类别,或者具有各种不同大小的类别。此外k-means方法对“噪声”和孤立点数据也很敏感,因为这类数据可能会影响到各类别的均值。k-means方法k-means方法也存在一定的缺陷和不足,如下所述:

05DBSCAN方法

DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)方法是一种基于高密度连接区域的密度聚类方法,将类别定义为密度相连的点的最大集合,将具有足够高密度的区域划分为类别,并可以在有“噪声”或孤立点的数据集类别中找到任意形状的类别。DBSCAN方法

05商务智能的数据

企业内部数据企业内部数据种类十分丰富。企业外部数据企业外部数据的常见来源如社交媒体和政府开放数据。从

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档