文本聚类的现状研究.docVIP

下载本文档

20
0
约6.04千字
约 7页
2017-08-24 发布于重庆
举报
版权申诉

文本聚类的现状研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本聚类的现状研究.doc

1 文本聚类研究现状 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示， 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据，如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来，文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。作为一种无监督的机器学习方法，聚类技术可以将大量文本信息组成少数有意义的簇，并提供导航或浏览机制。文本聚类的主要应用点包括： (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统 Newsblaster[1] 。该系统将新闻进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。比较典型的系统有 Infonetware Real Term Search 。 Infonetware 具有强大的对搜索结果进行主题分类的功能。另外，由 Carrot Search 开发的基于 Java 的开源 Carrot2 搜索结果聚合聚类引擎 2.0 版也是这方面的利用， Carrot2 可以自动把自然的搜索结果归类 ( 聚合聚类 ) 到相应的语义类别中，提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果，如俄亥俄州立大学的 Y.C.Fang 等人的工作 [2] 。 (4) 文档集合的自动整理。如 Scatter/Gather[3] ，它是一个基于聚类的文档浏览系统。 2 文本聚类过程文本聚类主要依据聚类假设：同类的文档相似度较大，非同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。图 1 文本聚类过程 2.1 文本信息的预处理文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式，即建立文本特征，以一定的特征项 ( 如词条或描述 ) 来代表目标文本信息。要建立文本信息的文本特征，常用的方法是：对文本信息进行预处理 ( 词性标注、语义标注 ) ，构建统计词典，对文本进行词条切分，完成文本信息的分词过程。 2.2 文本信息特征的建立文本信息的特征表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型以及混合型等。其中，向量空间模型 (Vector Space Model,VSM) 是近几年来应用较多且效果较好的方法之一 [4] 。 1969 年， Gerard Salton 提出了向量空间模型 VSM ，它是文档表示的一个统计模型。该模型的主要思想是：将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。对于所有的文档类和未知文档，都可以用此空间中的词条向量（ T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）来表示 ( 其中， Ti 为特征向量词条； Wi 为 Ti 的权重 )[5] 。一般需要构造一个评价函数来表示词条权重，其计算的唯一准则就是要最大限度地区别不同文档。这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式，使得各种数学处理成为可能。 2.3 文本信息特征集的缩减 VSM 将文本内容表示成数学上可分析处理的形式，但是存在的一个问题是文档特征向量具有惊人的维数。因此，在对文本进行聚类处理之前，应对文本信息特征集进行缩减。通常的方法是针对每个特征词条的权重排序，选取预定数目的最佳特征作为结果的特征子集。选取的数目以及采用的评价函数都要针对具体问题来分析决定。降低文本特征向量维数的另一个方法是采用向量的稀疏表示方法。虽然文本信息特征集的向量维数非常大，但是对于单个文档，绝大多数向量元素都为零，这一特征也决定了单个文档的向量表示将是一个稀疏向量。为了节省内存占用空间，同时加快聚类处理速度，可以采用向量的稀疏表示方法。假设确定的特征向量词条的个数为 n ，传统的表示方法为而（ T1 ,W 1 ,T 2 ,W2 ,…, Tn , Wn ）稀疏表示方法为 (D 1 ,W1 ,D2 ,W2 ,Dp ,…,Wp , n)(Wi ≠ 0) 。其中， Di 为权重不为零的特征向量词条； Wi 为其相应权重； n 为向量维度。这种表示方式大大减小了内存占用，提升了聚类效率，但是由于每个文本