中文文献的层次分类方法Ξ.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文献的层次分类方法Ξ

中 文  信  息  学  报 第 13 卷 第 6 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 6 中文文献的层次分类方法 战学刚 林鸿飞  姚天顺 东北大学计算机科学与工程系  沈阳 110006 摘要  现有的分类系统通常忽略类别体系的层次结构 ,在对文献进行分类时 ,往往很难区 分类别相近的文献属于哪一类 。本文基于向量空间模型 ,提出根据类别体系的层次结构 , 自顶 向下 ,逐层分类的方法 。其 目的是提高分类精度 ;并根据概念词典 ,将同义词或下位概念映射 到单一的概念词上 , 由这些概念词构成一个规模很小的特征集 , 以缩小特征向量空间的维数 , 从而减少分类系统的计算量 。此外 ,通过对类别层次体系的分析 ,压缩特征向量 ,从另一方面 减少分类系统的计算量 。 关键词  文献分类  向量空间模型  类别层次结构 Hierarchical Method f or Chinese Document Classif ication Zhan Xuegang  Lin Hongfei  Yao Tianshun Dep art ment of Comp uter Science , Nort heastern U niver sity  Shenyang  110006 Email :ics @mail . neu . edu . cn Abstract  Existing st atistical document classification systems often ignore t he hierarchical st ruc t ure of t he p redefined topics. This makes it difficult to identify which category a document be longs to when t he po ssible categories are somewhat similar . In t his article , we p ropo se a topdown classification met hod accor ding to t he hierarchical st ruct ure of topics. The p urpo se is to imp rove p recision and reduce comp ut ation of classification systems. Through a concept dictionary ( t he saurus) , we map t he synonyms or lowerlevel concept s in a document to a small set of concept wor ds t hat are used as terms. This reduces t he comp ut ational complexit y from anot her aspect by reducing t he dimension of t he vector sp ace . Key words  Document classification  Vector sp ace model  Topic category hierarchy 一 、引言 ( ) 文献分类就是将大量的自然语言文献归结到一个 或多个 预定义的文献类别中。近年 来 ,随着文本信息的不断增多 ,人们对大规模文本信息自动处理也提出了更高要求 。有效的信 本文于 1999

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档