中文文本分类中基于词性的特征提取方法研究.pdf

中文文本分类中基于词性的特征提取方法研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本分类中基于词性的特征提取方法研究

第 29 卷第4 期 武汉理工大学学报 Vo1. 29 No.4 2007 年4 月 JOURNALOF 明TUHAN UNIVERSITY OF TECHNOLOGY Apr. 2007 中文文本分类中基于词性的特征提取方法研究 胡棋,吴虎子,钟珞 (武汉理工大学计算机科学与技术学院,武汉 430070) 摘 要: 在介绍常用的文本分类中特征询提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方 法二一基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维 数方面都有显著改善。 关键词: 中文文本分类; 向量空间模型; 特征提取 中图分类号: 文献标志码 A 文章编号: 1671-4431 (2007)04-0132-04 Research of Feature Extraction Methods ßased on Part of Speech in Chinese Documents Classification HU Yan , WU Hu-zi , ZHONG Luo (Sch∞1 of Computer Science and Technology , Wuhan University of Technology , Wuhan 430070 , China) Abstract: The feature selection based on part of speech , a novel method adapting better to Chinese document classification , is proposed in this paper. This method can improv巳 the efficiency of feature selectio日 and reduce the dimensions of the feature V巳ctor. Key words: Chinese document classification; vector spac巳 model; feature s巳lection 为了便于从海量的中文文档中挖掘出有用的信息,必须对所收集的大量的文档进行有效的组织和分类。 要正确地执行文本分类任务,首要的任务就是要将它们从一个元结构的原始文本转化为结构化的计算机可 以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通 过对这种模型的计算和操作来实现对文本的识别。用简单而准确的方法将文档表示成计算机能够处理的形 式是进行文本分类的基础。 文本表示首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征 或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2) 特征项具有将目标文本与其 他文本相区分的能力;3) 特征项的个数不能太多;4) 特征项分离要比较容易实现。在中文文本中可以采用 字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分 难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。 如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况 下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤分类精度的情况下尽量减少要处理 的单词数,以此来降低向量空间维数,从而简化计算,提高分类工作的速度和效率。通常根据某个特征评估 函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这 就是特征抽取。 收稿日期:2006-11-16 作者简介:胡燕(1968-) ,女,讲师. E-mail: huyan@ 第 29 卷第4 期 燕

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档