传统的K.docVIP

下载本文档

3
0
约4.82千字
约 4页
2017-08-13 发布于河南
举报
版权申诉

传统的K.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛，包括文本聚类、图像及语音数掘压缩，使用径向基函数网络进行系统建模的数据预处理，以及异构神经网络结构中的任务分解。而且对大型数据集而言，K一均值算法是具有相对可伸缩的和高效的性能。由于K·均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取，并且K一均值算法是一个常用的局部搜索算法，它的主要缺陷是容易陷入局部极小值，该局部最小值与全局部最优解往往有很大的偏差。针对K一均值算法中的不足，从几个方面对传统的K一均值算法进行改进，首先提出了一种间接的学习权值算法可以得到一个好的距离度量，即如何学习加权距离式中的特征权值，以改进K一均值算法的聚类性能。该算法主要是构造一个评价函数，采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值，每次计算偏导，应用公式更新权值。如果评价函数的值低于或等于一个最小阐值或者迭代次数超过某一次数阐值时结束学习。当一组向量相似性较大时，可以通过学习特征权值改变它们属于同一类的程度，使其相似性变大。当一组向量相似性较小时，可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值，改善了聚类性能。其次提出针对参数K值的学习算法，初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法，仍然是可以通过对不同值的实验决定具体取值。最后，基于传统K一均值算法实施的各个环节，提出几种不同的K-均值改进算法，对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法，对一些数据库进行聚类实验，实验结果表明，在所用的算法达到了预期的效果，提高了算法的聚类效果。利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的超巨量文本数据，帮助人们提高检索信息、利用信息的效率。通过对文本信息进行基于内容的分类、自动生成便于用户使用的文本分类系统，从而可以大降低组织管理文档耗费的人力资源，帮助用户快速找到所需信息。例如网站中的网页分类、邮件分类、新闻分类、广告分类、文本检索、数字图书、文章分类等。Internet给人类带来的革命性的变革，使得随着Internet网进一步发展，各种基于网络的应用业务也急速发展起来，例如网上的商店、网上银行、远程教育、远程医疗等。特别是方便、快捷、高效的电子商务，在1998年到2002年里，其发展速度将超过40% 0 2002年，全球消费者的电子贸易额达到数千亿美元的规模。因此文本挖掘的一个广泛应用是在Web信息分析。分析用户访问Web的规律有助于企业确定顾客消费的生命周期，针对不同的产品制定相应的营销策略:分析用户访问Web的规律也可以找出如何优化一个网站组织结构策略:分析用户访问Web的规律也可以确定预传哪些页面到客户端，从而提高网站的效率。另外，对那些要通过网络发送广告的企业，分析用户访问模式助有于针对性地在某些用户经常访问的地方播广告条。这些对于网站、图书馆有效的组织、推送信息和用户快速获取所需信息是非常必要的，具有十分重要的科学惫义和很好的实用价值。大多数分类方法是基于向量空间模型的。一个文本D可以视为词(或词组)的序列。对于每一词(以下称为向量空间的特征)，都根据其在文档中的重要程度赋以一定的权值，从而构成一个向量(wi,wz,...,w小其中wi是第I个特征的权值，n是特征总数。一此常用的加权方法包括二进制加权、词频、词频与倒排文档频率之积等。当前在文本分类中，对任愈两个向量X=(x},xz,....x)与X气x,,xz,...,}c)，存在3种最通用的距离度量:欧氏距离、余弦距离和内积(s1。有两种常用的分类策略。一种是计算待分类向量到所有文本向量(训练集中)的距离:如K-NN选择K个距离最小的向量进行综合，以决定其类别.另一种用训练样本中的向量，仅计算待分类向量到所有类别向量的距离，选择一个距离最小的类别向量决定类别的归属。很明显，距离计算在分类中起关键作用。由于以上3种距离度量不涉及向量中特征之间的关系，这使得距离的计算不精确，从而影响分类的精度。 2. 3 K一均值算法 2. 3. 1 K一均值算法的概述数据聚类是指根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。长期以来，尽管人们提出了许多数据聚类算法，如K一均值(k一means)算法、Dbscan算法、WaVecluster算法等，但是，所有这些算法在涉及到人数据集的数据聚类时，计算开销大，效率低，聚类质量差，这直接限制了它们在一些相关领域中的实用性。在众多的聚类算法