- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web个性化服务中聚类算法探究
基于Web个性化服务中聚类算法探究 摘要:对数据挖掘领域中常用聚类算法进行了阐述,并对其优缺点进行了分析,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题。
关键词:数据挖掘;簇;聚类算法
中图分类号:TP301.6文献标识码:A文章编号:1672-7800(2012)010-0033-03
基金项目:湖南省大学生研究性学习和创新性实验计划项目(JSU-CX-2011-28)
作者简介:张露(1991-),女,吉首大学软件服务外包学院学生,研究方向为计算机科学;张彬连(1978-),女,吉首大学软件服务外包学院讲师,研究方向为计算机科学。
0引言
随着信息和科学技术的高速发展,各行业积累的数据量迅速增长,而更重要的是如何从大量的、不完全的数据中提取出有用的信息。而在数据挖掘中充当重要角色的就是聚类,它在识别数据的内在结构方面具有独到的作用。而数据挖掘工具以及工具提供的可选择的算法是实现数据挖掘目的的垫脚石。数据的类型、聚类的目的应用决定了选择哪一类聚类算法,其中聚类是把物理或者抽象对象分组成为由类似对象构成的多个簇的过程,即把数据对象分成多个类或簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差异较大。它对未知数据的分析和划分能起到非常有效的作用。此外,通过聚类,能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的相互关系等。为了找到效率高、通用性强的聚类方法,人们从不同角度提出了许多种聚类算法,大致可分为层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型的方法这五大类。
1典型聚类算法分类及其优缺点分析
1.1基于划分的聚类算法
首先,给定一个样本为n的数据集,然后根据给定要创建划分的数目k,将数据划分为k个组(kn),每个组相应地表示一个簇,同时满足以下的条件:①每个组至少包含一个样本;②每个样本属于且仅属于一个簇。算法要事先给出要创建的划分的数目k,创建一个初始划分,然后采用循环定位技术,通过根据簇类之间的差异把对象从一个划分移动到另一个划分的方法来改善划分质量。评价划分的好坏的标准一般是在同一个类中的对象尽可能“接近”,而不同类中的对象尽可能“远离”。为达到全局最优的目的,基于划分的聚类会要求穷举所有可能的划分。其中包括以下典型的划分方法:k-平均、k-中心点、CLARA、CLARANS等。
1.1.1基于簇的重心技术:k-平均算法
(2)k-平均算法的优缺点:①优点:当满足结果簇是紧凑的,并且簇与簇之间明显分离式的前提条件,k-平均算法能发挥较好的效果,而且在处理大数据集时,是有相对可伸缩的和有效率的;②缺点:该算法有其限制条件,只有在簇的平均值被定义的基础上才能使用,这就使得可能不适应某些应用的数据,要求用户必须事先给出k的取值。在大部分实际应用中,最终的聚类数量并不能得到一个确切的数目,且该算法遇到非凸面形状的簇,或者遇到在大小上存在很大差别的簇时,聚类效果不明显。而且,它对于带有“噪声”的空间数据和离群数据是敏感的。该算法经常止于局部最优。
1.1.2基于有代表性的对象的技术:k-中心点方法
1.1.3基于选择的k-中心点CLARANS方法
(1)CLARANS方法的处理流程:首先,不考虑整个数据集合,用实际数据的抽样来作为数据的样本;然后,用PAM方法从样本中选择中心点;返回最好的聚类结果作为输出。
(2)CLARANS方法的优缺点:①优点:该算法的效率较高,能够发现最“自然的”结果簇数目,且能够检测离群点,且相应地拓展了数据处理量的伸缩范围;②缺点:该方法的聚类质量对采取的抽样方法依赖性强,且最中心点的要求较高。而且对于大数据量、时间复杂度和空间复杂度都很大。
1.2基于层次的聚类算法
根据树的形成过程,层次分解的方向的不同可以分为以下两种类型:
(1)自底向上(凝聚)聚类方法。该方法一开始将每个对象作为单独的一个组,然后继续与相近的对象或组合并,直到所有单独的组都被合并,成为一个整体,或者达到一个终止条件。
(2)自顶向下(分裂)聚类方法。与凝聚法相反,该策略先将所有对象置于一个簇中,在迭代的每一步中,在一个簇的基础上分裂为更小的簇,直到最终每个单独的簇中包含一个对象,或者达到一个终止条件。下面介绍其代表算法。
1.2.1BIRCH算法
(1)BIRCH算法包括阶段:阶段一是BIRCH扫描数据库,建立初始化的CF树,尝试把数据内在的聚类结构保留下来;阶段二是BIRCH算法采用某个聚类算法对CF树的叶节点进行聚类。
(2)BIRCH算法的优缺点:①优点:引入的聚类特征树概括了聚类的有用信息,且占用空间较元数据集合小,只需要一
原创力文档


文档评论(0)