网站大量收购独家精品文档,联系QQ:2885784924

文本分类算法的究与改进.pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类算法的究与改进

摘要 摘 要 文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对信息处 理的意义变得更加重要。 二十世纪八十年代以后,基于机器学习的文本自动分类方法越来越成为主流, 它具有周期短,效率高,节省人力资源等优点。但文本自动分类研究自开展以来, 准确率一直不能达到令人满意的效果,如何提高分类准确率成为研究热点。 本文较详细的介绍了文本自动分类的多种关键技术,分析了文本的向量空间 模型的表示效力以及它对于分类效果的影响因素;然后针对朴素贝叶斯文本分类 方法中“属性独立性假设”的不足,运用局部降维的思想提出了一种用互信息差 值来表达特征项之间的相关性,对相关性高的特征采取适当融合来达到向量空间 降维的方法。 此方法首先对训练文本集中的每篇文本提取出原始的特征词,经过去除停用 词、词义消歧的处理后,在类的内部利用信息差值来表达特征项之间的相关性, 对相关性高的特征采取适当融合的方法来对特征向量进行局部降维。得出的向量 与降维前相比,低频特征词的数目大为减少,高频特征词数目增多,且高频特征 词的频度得到加强,特征词总的数目减少,向量的维数降低,对于所属类别具有 更强的关联性和较好的表示效力,很好地达到了降维的目的。 最后,运用此方法对朴素贝叶斯分类方法进行改进,还对具体操作时阈值的 选取做了一些研究。实验结果表明,改进后的文本分类模型适合于文本分类的需 要,提高了原有分类器的性能。 关键词: 文本分类 贝叶斯 属性独立性假设 互信息 Abstract Abstract Text categorization can provide information retrieval more efficient searching strategies and good query results. With the rapid growth of the information resources on intemet, information processing has become more and more important. The automatic method of text classification based on machine learning was becoming main stream after 1980s. It has advantages of the short period, high efficiency, and high consistency of the results. Though automatic text classification has so many merits, the accuracy of its results is not satisfied till now. Text classification has a wide range of applications with the rapid development of the internet. The current research is mainly focused on improving the accuracy of the text classification results. The paper gives a detailed introduction of key techniques of automatic text categoriation including the text classification system. Then Bayes classifier model and algorithm including the text information expressing, extraction and classification method are analyzed. Mor

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档