汉语文本聚类与算法设计.docVIP

下载本文档

2
0
约5.38千字
约 6页
2017-09-03 发布于河南
举报
版权申诉

汉语文本聚类与算法设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语文本聚类与算法设计

汉语文本聚类与算法设计本文由johnson11_219贡献 pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT，或下载源文件到本机查看。汉语文本聚类及其算法设计陈炯 1 2，范卓华 2，张虎 2 （1．山西综合职业技术学院电子分院，山西太原 030006； 2. 山西大学计算机和信息技术学院 ,山西太原 030006）摘要:本文主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇，且对离群数据较为敏感等问题，利用聚类簇代表点选取的方法，同时结合基于人进行聚类判断所遵循的基本原则，即聚类中对象间距离应小于聚类间距离，设计了一种有效的聚类算法，实验结果表明算法是有效的。关键词: 聚类代表点聚类簇聚类中心中图分类号：TP391 文献标识码：A ，引言随着互联网的出现，大量的文本信息如潮水般不断涌现，网络已经成为一个庞大而杂乱无章的桌面图书馆。对海量的文献人们迫切需要能够自动实现文本的分类处理，在节省时间的同时更好的定位查找自己需要的文献。有效的信息检索需要有良好的索引和文本内容概括，文本聚类便是解决这类问题的一种手段。文本聚类就是将一个训练文献集分成若干称为聚类簇（cluster）的子集，每个聚类簇中的成员之间具有较大的相似性，而聚类簇之间的文本具有较小的相似性。文本分类一般是通过统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则，因此其开发费用相当昂贵。相比之下，统计方法由于其简单的机制，为大多数实用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同点是从文本中提取词汇信息，并以特征向量的形式来表示文本。基于以向量来表示的文本，聚类算法有很多种，本文是通过在特征向量中选取代表点来完成聚类的。 1 聚类分析法在日常生活、生产、科研、工作中，经常要对被研究的对象分类。研究和处理给定对象分类的 Analysis）。数学方法称为聚类分析（Clustering 聚类算法是数据挖掘中常用的方法之一。通常可以分为层次式和非层次式两种。本文介绍的是层次式聚类方法。其优点是聚类的形成一般依赖于数据，而不是通过用户预定义的聚类数得到。它通过对初始数据构造一个聚类层次来完成聚类。初始，输入的每个数据点被看成一个单独的聚类簇，然后将成对的聚类簇一一合并，同时依据各聚类簇中各对象间的最大距离应小于各聚类簇之间的最小距离的原则，在包含 N 个对象的 m 维单位空间中，对象间的平均距离为 1 m N 。按照“各聚类簇中对象间距离不应超过此标准，而各聚类簇之间距离不应低于此标准”规则，来结束聚类的。聚类簇合并的每一步，是合并距离最小的一对聚类簇。常用的聚类簇合并策略有：合并重心最为靠近的一对聚类簇；考察分属不同聚类簇的点之间的距离，并合并距离最小的一对数据点所对应的两个聚类簇；合并所有数据点间距离的平均值最小的两个聚类簇；考察分属不同聚类簇的点对之间的最大距离，合并该值最小的点对各自所在的聚类簇。如果待确定的各聚类簇内部数据点分布比较紧凑，且各聚类簇之间足够远离，这些策略都会得到较好的结果。然而，如果各聚类簇比较靠近（即使一些聚类簇之间是由离群数据连接的）或者聚类簇的形状不是超球形的且聚类簇的大小差异较大，，则采用不同的合并策略产生的结果有相当大的差别。如果待聚类的资料为长条形结构，可能会使长条形聚类簇被割裂开，而且会将割裂的属于不同聚类簇的子聚类簇合并成一个单独的聚类。从以上的分析可以看出，基于重心的方法和考虑所有点的方法都不适用于非球形、任意形状的聚类。基于重心的方法缺点在于它仅仅用一个点（即聚类簇的重心）来代表整个聚类簇。对于一个大的聚类簇或是一个任意形状的聚类簇，它的各个子聚类簇的重心可能会距离相当远，这样就会导致这个聚类簇被分割开。另一方面，考虑所有点的方法用一个聚类簇内的所有点来代表它，这样就会使得聚类算法对离群数据极度敏感，而且数据点位置的微小变化都会导致算法结果有较大变动。此外大多数聚类学习算法，均需用户事先给定聚类个数 K，且聚类结果对 K 值大小都很敏感，不同 K 值的聚类学习结果往往大相径庭，但就目前的状况来说，如何选择合适的 K 值，本身就是一个难题。 2 2.1 算法设计及其实现问题描述给定任一训练文献集，根据某一聚类算法将其分为内容相近的几类。本文的聚类过程是建立在文献已经分词并进行了词频统计的基础上的。利用分词和词频统计结果产生的词长、词频以及其它有用数据来随机抽取特征词，根据抽取出的特征词形成每个文本的特征向量，分别求出任两