基于WEKA平台文本聚类研究与实现.docVIP

下载本文档

14
0
约6.74千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于WEKA平台文本聚类研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于WEKA平台文本聚类研究与实现

基于WEKA平台文本聚类研究与实现　　[摘要] 文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20 Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案。　　[关键词]文本挖掘;文本聚类;向量空间模型;WEKA 　　doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 003 　　[中图分类号]TP393[文献标识码]A[文章编号]1673 - 0194(2009)21 - 0009 - 04 　　　　1引言　　　　近年来,随着互联网的大规模普及和社会信息化程度的提高,非结构化的文本数据成为了信息最重要的载体,研究表明信息有80%包含在文本数据中[1],这使文本挖掘[2]成为数据挖掘领域中一个日益流行且重要的研究方向。在日常工作中,人们经常遇到的一个问题就是,如何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。延续数据挖掘的思想,人们自然将解决这一问题的目光投向文本挖掘中与分类相关的技术。　　要实现对大量文本的自动分类,可以采用文本分类和文本聚类两种方法。在信息瞬息万变的今天,经常会出现新的数据很难用已有的分类体系来处理,如果重新进行分类,就必须重新建立分类好的训练文档集,而获得大量带有类别标注的样本的代价是很大的。这时使用聚类的方法就显得很重要,因为作为一种无监督的机器学习方法,文本聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,具有一定的灵活性和较高的自动化处理能力[3]。据数据挖掘著名网站Kdnuggets的调查,在最近的6个月中,使用开源的数据挖掘工具的人(占使用商业和开源工具总数的36%),其中的5%左右在使用WEKA工具进行数据挖掘,11%左右在使用基于WEKA构建的RapidMiner工具,如图1所示。由此可见,WEKA作为基于Java环境下开源的机器学习和数据挖掘工具的元老,英勇不减当年。本文基于开源的WEKA机器学习平台,探索了利用WEKA进行文本聚类的全过程。　　图 1 数据挖掘工具的使用情况调查　　　　2文本聚类概述　　　　2.1 文本聚类的基本思想　　文本挖掘(Text Mining)[4]是指从大量文本数据中抽取事先未知的可理解的最终可用的知识的过程。作为文本挖掘的重要分支,文本聚类主要是依据Hearst等人证明的“聚类假设”:同类的文本相似度较大,而不同类的文本相似度较小[5]。　　2.2 文本聚类的过程　　目前,文本聚类的途径一般是将非结构化问题结构化,利用现有的数据挖掘技术进行聚类。该途径的基本思路是:首先进行分词、特征表示、提取等处理,将文本用结构化的形式来描述;然后根据应用需求,选择或设计聚类算法;最后将所得到聚类效果进行评估,不断改进聚类过程。具体过程如图2所示。　　图 2 文本聚类的过程　　　　3文本聚类技术研究　　　　3.1文本预处理　　文本预处理是把文本表示成聚类算法可以处理的形式,包含特征表示和特征提取两个阶段。　　目前文本特征表示模型有向量空间模型、布尔模型、概率检索模型、语言模型等,其中向量空间模型最为流行。　　在向量空间模型中,文档集C中的每个文档Dj都是向量空间中的一个特征向量,且所有文档的特征向量都具有相同的维数n,该维数是所有文档中不同特征项的总数目。文档Dj的特征向量可以用文档中的特征项Ti及其权重Wij来表示: 　　V(Dj) = {T1,W1j;T2,W2j;…;Tn,Wnj｝　　特征项Ti的权重Wij的计算采用TF-IDF方法的标准定义: 　　Wij = TFij × IDFi = TFij × logN/DFi 　　其中,N为文档集C中的文档总数目,TFij为特征项Ti在文档Dj中出现的次数,DFi为文档集C中包含Ti的文档数目。　　特征提取也被称为特征降维,分为特征选择和特征抽取两种主要方法。在对文本挖掘过程中,需要考虑多个因素的影响,将特征选择和特征抽取有效地结合起来,联合降低特征维数。　　3.2 文本聚类算法　　目前有多种文本聚类算法,根据算法的思想大致可分为: 　　3.2.1划分方法(Partitioning Method) 　　k-means算法是最常见的划分方法,比较著名的算法还有PAM、CLARA、C