一种基于向量空间模型文本分类系统的研究和设计.pdfVIP

一种基于向量空间模型文本分类系统的研究和设计.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于向量空间模型文本分类 系统的研究与设计 李长虹 李堂秋 厦门大学计算机科学系,厦门,361005 摘要文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程。本文阐述 了一个基于向量空间模型的文本分类系统的研究与设计。对文本分类系统的系统结构、预处理、特 征提取、分类算法等进行了详细的介绍。分类粒度的选择上,在基于词的文本分类的基础上增加了 对名词短语的识别。特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进。实验 结果表明,使用新方法进行分类的预处理所得到的分类精度得到了一定的提高。 关键词文本分类,向量空间模型,特征选择,文档频数,互信息量 1 引言 随着网络的迅猛发展,网络上的信息量迅猛增加。如何对这些在线文档进行有效的组织和 高效的管理,成为人们迫切需要解决的问题。文本分类也成为解决该问题的一项关键技术。文 本分类是把一个自然语言文本根据其主题归入到某一预先定义好的某一个分类体系中的一类 或几类的过程。文本自动分类就是使用计算机根据一定的分类规则实现文本的自动归类的过 程。目前,对于文本分类所采用的技术主要有,NaiveBayes,k--nearest vector neighbor,support 研究与设计技术。对分类的粒度选择,在基于词的文本分类的基础上增加了对名词短语的识 别。对特征选择的方法,结合了文档频数和互信息量,并对他们进行了改进,这样加强了对低频 词和类间分布差异相近的特征的处理,解决了文本分类中一些特征处理不足之处。 2系统设计 训练文档和测试文档需要相同的预处理和特征提取方法,只有这样,通过训练集学习获得 的分类规则才能用于测试文档进行分类。训练模块对训练文档进行预处理、特征选择和提取、 参数训练,生成分类规则。分类模块用训练得到的分类规则,通过分类器对测试文档进行分类。 2.1文本预处理 文本预处理的目的是把文本整理成一些规范的格式,便于接下来的步骤操作,主要包括以 下的一些部分: (1)名词短语的抽取 334 在文本分类中,通常将文档中出现的词作为一个单元,独立的抽取出来,作为分类的特征。 但是由于单独的词并不总是表达意思的原子单位,造成了一些分类信息的丢失,导致了分类精 度的降低。例如需要对artificial intelligence,roachinetools,education三个主题进行文本分类, 那么对于词组machine 类特征的基础上,把名词短语抽取出来加入到系统的特征中,会在一定程度上改善分类的效 fox overthe brown 果。我们对名词短语的定义如下;AP={A,N)*N,例如,对thequick jumps lazy brown dog这个句子,按照我们的定义,brownfox,quickfox和lazydog都将作为名词短 语抽取出来。把名词词组作为特征的问题是会在系统中潜在的引入大量的冗余特征,并且大量 brown 低频名词短语的出现有可能为分类引入噪声。如上述的brown fox就会为分 fox,quick 类引入冗余特征。通过借助予已知的名词短语词典,可以将这些名词短语过滤掉。如果在文档 中出现machine rate,monetaryinterest等名词短语,同时他 learning,machine language,interest 们也在

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档