用于文本分类和本聚类的特征选择和特征抽取方法的研究.pdf

用于文本分类和本聚类的特征选择和特征抽取方法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用于文本分类和本聚类的特征选择和特征抽取方法的研究

用于文本分类和文本聚类的特征选择和 特征抽取方法的研究 摘 要 文本分类和文本聚类是文本数据挖掘中两个非常重要的技术,它们已经被广泛地应 用于信息管理、搜索引擎、推荐系统等多个领域,比如大多数的搜索引擎都使用文本 分类技术来实现网页的自动分类、同时又使用文本聚类来提高信息检索的质量和组织 搜索引擎返回的结果来方便用户浏览等。 要进行文本分类和文本聚类,首先要做的就是对文本数据进行数学描述,其中最基 本的模型就是向量空间模型。在这个模型中,每一个文本对应一个向量,每一个单词 对应向量中的一维。这种描述方法非常简单,但是却引发了一个非常严重的问题,那 就高维稀疏问题。不仅如此,这种描述方法还无法解决文本数据所特有的两个自然语 言问题,那就是近义词问题和多义词问题。所有这些问题极大干扰了分类和聚类学习 算法的效率和准确性,使文本分类和文本聚类的性能急剧下降。因此要想使文本分类 和文本聚类的性能达到令人满意的程度,其根本要解决的就是对文本数据进行更为科 学的数学描述。为此,人们首先提出了若干种权重调整方法,比如TF*IDF,但是这些 方法只能在一定程度上优化文本的向量表示,并没有解决高维稀疏、近义词和多义词 问题,因此它们只能非常有限地提高文本分类和文本聚类的性能。另一种解决方法是 降维,它指的是通过降低文本空间的维度来优化文本的表示,通常包括特征选择和特 征抽取两种方法。不同于单词权重调整.降维能非常有效地解决高维稀疏、近义词和 多义词问题,所以通常能大幅提高文本分类和文本聚类的性能。 因此这篇论文专门就特征选择和特征拙取两种降维方法进行了深入的研究。论文首 先全面阐述了在文本分类和文本聚类问题上特征选择和特征抽取的发展状况,然后深 入分析了各种己提出的特征选择和特征抽取算法的优点和所存在的问题。接着针对这 些问题,本文提出了三种新的特征选择算法和一种新的特征抽取算法,这些算法都分 别显著提高了文本聚类和文本分类的性能。 首先在特征选择的研究上,本文针对特征选择在文本分类上应用得非常成功,但是 却因为缺乏类信息而很少应用于文本聚类的现状,首先用理想实验证明了特征选择在 理想情况下同样能大幅提高文本聚类的效率和性能。然后针对理想的有jI{i督特征选择 虽然优秀但无法直接应用_)=_文本聚类、实际的无监督特征选择又很难提高文本聚类性 能的问题,提出了两种新的无监督特征选择算法:迭代特征选择算法(IF)和基于K. Means的特征选择算法(KFS)。这两利一算法通过在聚类结果上使用有监督特征选择 算法进行特征选择的思想非常有效地将有监督的特征选择算法应用到了文本聚类的问 题之上,将文本聚类的性能提高了近15%。其次,本文还提出了另外一种新的无监督 特征选择算法:誓词贡献度(TC),并将其和传统的文档频数、单词权、单词熵、信 息增益、,统计等特征选择算法进行了综合的比较和分析。 其次在特征抽取的研究上,本文重点研究了典型的潜在语义索引技术(LSI)在文 本分类上的两种应用方式:全局LSI和局部LSI。然后针对全局LSI会严重损害文本分 类的精度、局部LSI虽然能极大改善全局LSl但是也只能略为提高文本分类精度的问 题,提出了一种新的局部相关加权LSI算法(LRW.LSI)。这个算法采用更为平滑的 方式来引入相关文本以建立局部区域,使得与一个类越相关的文本在局部区域中具有 越高的权重,从而使奇异值分解能将更多的重心放在更为重要的语义信息之上进而抽 取出最能区分一个类和其他类的局部语义结构。实验结果证明这个算法比任何一种局 部LSI方法都要优秀,它能在更低的维度下(只需几十维)将文本分类的性能提高近 10%。 关键词:文本分类、文本聚类、特征选择、特征压缩 TheResearchonFeatureSelectionandFeature ExtractionforTextClassificationandText Abstract Intextclassificationandtext textordocumentis clusteringapplications,the always VectorModelinwhicheach represented

文档评论(0)

chuotuo0075779 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档