一种改进的谱聚类方法及其在文本分析中的应用.docVIP

下载本文档

3
0
约4.78千字
约 7页
2018-04-06 发布于北京
举报
版权申诉

一种改进的谱聚类方法及其在文本分析中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进的谱聚类方法及其在文本分析中的应用　　摘要：随着文本资源的激增，特别是网页文本的迅速增加，针对文本的挖掘分析日益受到重视。谱聚类是文本聚类分析较常用的一种新型方法。该文将非负约束引入到传统的谱聚类算法中，提出了一种基于非负约束的谱聚类方法。文中实验验证了所提出方法在中文文本聚类分析应用中的有效性。　　关键词：谱聚类；非负矩阵分解；文本聚类　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)16-3910-02 　　A Novel Spectral Clustering Algorithm and its Application for Text Analysis 　　WANG Chun-teng1, FU Chuan-yi2, XING Jie-qing2 　　(1.College of Electronic Information Engineering of Qiongzhou University, Sanya 572022, China; 2.Department of Modern education technology, Qiongtai Teachers College, Haikou 571100, China) 　　Abstract: With the increasing accumulation of text resource, specially web text, text clustering analysis has attracted many researchers. Spectral clustering is a new method for text clustering. In this paper, the nonnegative constraint is introduced into the traditional spectral clustering. The algorithm NMF-based spectral clustering is proposed. The results of experiments evaluate the proposed method. 　　Key words: spectral clustering; nonnegative matrix factorization; text clustering 　　作为一种有效的数据分析方法，聚类算法已经被广泛应用于计算机视觉、信息检索、数据挖掘等领域。谱聚类，它的思想来源于谱图划分理论，谱聚类仅与数据点的数目有关，而与维数无关，因而可以避免由高维特征向量造成的奇异性问题．谱聚类算法[1]克服了如均值聚类算法的缺点，具有识别非凸分布聚类的能力，非常适合于许多实际应用问题，而且实现简单，算法与数据点的维数无关，仅与数据点的个数有关，因而可以避免数据的过高维数所造成的奇异性问题．如何将聚类分析有效地应用于文本分析领域是当前研究热点之一。近年来所提出的谱聚类是一种较为实用的聚类方法[1]。谱聚类方法已成功应用于语音识别[2]、视频分割[3]、图像分割[4]、VLSI设计[5]、网页划分[6]、生物信息[7]等领域，表现出了极大的潜力。　　聚类分析可以发现无结构文本集中的“潜在概念”(1atent concept)，并用这些概念来给出文本集的概要或者标签，因此，它可以有效地组织和搜索大规模文本集。与结构化的信息相比，非结构化的文本信息更加丰富与繁杂。随着互联网络的发展，Web上的文本资源在几年间呈现爆炸式的增长。这些文本信息数据量大、内容繁杂而且处在不断变化之中。随着信息资源的日益丰富，如何充分有效地利用信息成为人们关注的焦点。谱聚类作为一种数据挖掘的重要手段，在文本挖掘中也扮演着非常重要的角色。　　在文本聚类中，文本数据通常用向量空间来描述。在这种描述中，每一个单词都作为特征空间坐标系的一维，每一个文本是特征空间中的一个向量。虽然这种描述方法简单、直观，但是面临一个极富挑战的问题：高维且稀疏。高维稀疏使文本聚类的性能急剧下降，不仅需要花费很长的时间，而且聚类的结果也很难令人满意。　　为了解决这个问题，本文提出一种带非负约束的谱聚类算法。利用非负矩阵分解（NMF）在高维数据上进行数据分解。在谱聚类框架下，得到低维的待聚类数据点。最后，在低维数据点上应用K-均值实现聚类。　　1 基于非负约束的文本聚类方法　　本文采用文本聚类研究中常用的向量空间模型（Vector Space Model）。在VSM中，文档集被看作是由一组正交特征词（t1,t2,…,tm）所组成的向量空间，每个文本可以看成是空间中的一个点向量(a1,a