一种改进的谱聚类方法及其在文本分析中的应用.docVIP

一种改进的谱聚类方法及其在文本分析中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的谱聚类方法及其在文本分析中的应用   摘要:随着文本资源的激增,特别是网页文本的迅速增加,针对文本的挖掘分析日益受到重视。谱聚类是文本聚类分析较常用的一种新型方法。该文将非负约束引入到传统的谱聚类算法中,提出了一种基于非负约束的谱聚类方法。文中实验验证了所提出方法在中文文本聚类分析应用中的有效性。   关键词:谱聚类;非负矩阵分解;文本聚类   中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)16-3910-02   A Novel Spectral Clustering Algorithm and its Application for Text Analysis   WANG Chun-teng1, FU Chuan-yi2, XING Jie-qing2   (1.College of Electronic Information Engineering of Qiongzhou University, Sanya 572022, China; 2.Department of Modern education technology, Qiongtai Teachers College, Haikou 571100, China)   Abstract: With the increasing accumulation of text resource, specially web text, text clustering analysis has attracted many researchers. Spectral clustering is a new method for text clustering. In this paper, the nonnegative constraint is introduced into the traditional spectral clustering. The algorithm NMF-based spectral clustering is proposed. The results of experiments evaluate the proposed method.   Key words: spectral clustering; nonnegative matrix factorization; text clustering   作为一种有效的数据分析方法,聚类算法已经被广泛应用于计算机视觉、信息检索、数据挖掘等领域。谱聚类,它的思想来源于谱图划分理论,谱聚类仅与数据点的数目有关,而与维数无关,因而可以避免由高维特征向量造成的奇异性问题.谱聚类算法[1]克服了如均值聚类算法的缺点,具有识别非凸分布聚类的能力,非常适合于许多实际应用问题,而且实现简单,算法与数据点的维数无关,仅与数据点的个数有关,因而可以避免数据的过高维数所造成的奇异性问题.如何将聚类分析有效地应用于文本分析领域是当前研究热点之一。近年来所提出的谱聚类是一种较为实用的聚类方法[1]。谱聚类方法已成功应用于语音识别[2]、视频分割[3]、图像分割[4]、VLSI设计[5]、网页划分[6]、生物信息[7]等领域,表现出了极大的潜力。    聚类分析可以发现无结构文本集中的“潜在概念”(1atent concept),并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。与结构化的信息相比, 非结构化的文本信息更加丰富与繁杂。随着互联网络的发展,Web上的文本资源在几年间呈现爆炸式的增长。这些文本信息数据量大、内容繁杂而且处在不断变化之中。随着信息资源的日益丰富,如何充分有效地利用信息成为人们关注的焦点。谱聚类作为一种数据挖掘的重要手段,在文本挖掘中也扮演着非常重要的角色。   在文本聚类中,文本数据通常用向量空间来描述。在这种描述中,每一个单词都作为特征空间坐标系的一维,每一个文本是特征空间中的一个向量。虽然这种描述方法简单、直观,但是面临一个极富挑战的问题:高维且稀疏。高维稀疏使文本聚类的性能急剧下降,不仅需要花费很长的时间,而且聚类的结果也很难令人满意。   为了解决这个问题,本文提出一种带非负约束的谱聚类算法。利用非负矩阵分解(NMF)在高维数据上进行数据分解。在谱聚类框架下,得到低维的待聚类数据点。最后,在低维数据点上应用K-均值实现聚类。   1 基于非负约束的文本聚类方法   本文采用文本聚类研究中常用的向量空间模型(Vector Space Model)。在VSM中,文档集被看作是由一组正交特征词(t1,t2,…,tm)所组成的向量空间,每个文本可以看成是空间中的一个点向量(a1,a

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档