基于K―Mean文本聚类研究.docVIP

下载本文档

2
0
约4.03千字
约 9页
2018-07-11 发布于福建
举报
版权申诉

基于K―Mean文本聚类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K―Mean文本聚类研究

基于K―Mean文本聚类研究　　摘要文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本，但是由于聚类中心的选取对聚类结果有影响，导致聚类不稳定，因此采用一种基于聚类中心的改进算法分析文本，通过实验，验证算法的有效性。　　关键词文本聚类；k-means；相似性；度量准则　　中图分类号：TP391 文献标识码：B 　　文章编号：1671-489X（2014）18-0050-03 　　Research for Text Clustering based on K-Mean//ZHANG Yue， LI Baoqing， HU Lingfang， MENG Li 　　Abstract Text clustering can make the text similarity large clustered into the same class， K-Means usually is used in text clustering， because of impacting on the cluster center， which results in the clustering instability. Therefore， this paper uses a text analysis of improved algorithm based on the clustering center， through the experiment， it verifies the effectiveness of the improved algorithm. 　　Key words text clustering； k-means； similarity； measure criterion 　　文本聚类是把不同的文本分别聚在不同的类别中，是文本挖掘的重要技术，它是一种无监督的学习技术，每个类中包含的文本之间具有较大的相似性，不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支，它应用神经网络、机器学习等技术，能够自动地对不同文本进行分类。　　在文本聚类分析中，文本特征表示一般采用向量空间模型[1]，这种模型能更好表现文本。在对文本聚类的研究中，Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3]，得出结论：采用K-Means算法进行聚类，不仅聚类结果较好，而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现，结合实际研究，采用一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行研究发现，采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多[4]。　　1 文本聚类　　文本聚类的方法很多，主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中，基于划分的K-Mean是最常用也是很多改进方法的基础，文章中采取的改进方法也是基于K-Mean的。　　K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被使用，因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以K-Mean为基础开展进行的，它的计算复杂度低，具有与文档数量成线性关系的特性，计算效率不仅高，而且伸缩性较强，适应大数据集的能力也很强。K-Mean以k为初始聚类数，然后把n个文本分到k个聚类中，这样类内的文本具有较高的相似度，不同类间的相似度较小。　　K-Mean具体的算法过程如下：　　1）首先给定n个数据文本，从其中任选k个文本，这k个数据文本初始地代表了k个类的数据中心；　　2）对剩余的每个文本计算其到每个中心的距离，并把它归到最近的中心类中；　　3）重新计算已经得到的各个类的中心，通常计算中心的准则函数采用平方误差准则，这个准则能够使生成的结果类尽可能地独立和紧凑；　　4）迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值，直到算法结束。　　具体的算法流程如图1所示。　　2 改进的聚类算法　　虽然使用K-Mean算法进行文本聚类时，具有计算复杂度低，计算效率不仅高，而且伸缩性较强，适应大数据集的能力也很强的优点，但是实验发现，不仅初始聚类中心的选取对聚类结果有影响，孤立点的存在对文本的相似性的判断也有很大的影响，这就导致聚类判断不稳定。基于此，文章采用一种改进的方法来进行文本聚类，改进关键点在于聚类中心的计算，用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。　　改进的K-Means算法描述如下所示：　　1）首先给定n个数据文本，从其中任选k个文本，这k个数据文本初始地代表了k个类的数据中心；　　2）对剩余的每个文本计算其到每个