基于概念的文本自动分类研究-计算机应用专业论文.docxVIP

  • 1
  • 0
  • 约4.3万字
  • 约 53页
  • 2019-02-20 发布于上海
  • 举报

基于概念的文本自动分类研究-计算机应用专业论文.docx

苎王丝垒塑塞查旦垫坌鲞翌壅——摘要 苎王丝垒塑塞查旦垫坌鲞翌壅—— 摘要 随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得 到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种 文件管理方法。 本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》 为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原, 并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统 分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处 理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对 对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词 分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的 一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的 向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方 法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为 该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的 召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。 f本文在三个方面提出了新的思想:第一,首先提出把义原分类为可分义原 和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本 分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表 示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映 出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要 表达的中心意思。第三,首先把概念排岐引入到文本分类中,并提出一种新的 概念排岐算法。/e 关键词:文本分类文本表示kNN知网召回率精确率义原可分义原 向量空间向量/ 第l页 董三塑查些苎查!垫坌鲞堕窒——ABSTRACT 董三塑查些苎查!垫坌鲞堕窒—— ABSTRACT Wi th the rapid growth of Internet.10ts of information surges toward us.1t has been an urgent problem oil how to manage a11 the information we have gotten. Text Categorization(TC)is an important method man usually use to deal with this probIem. This paper proposes a new automatic natural language text categorization module based on concept.This module takes How—Net as the main source of know/edge, the concepts of words as the basis of text categorization.The concepts of words are reduced to sememes and the TC is performed in the Classfiable Sememe Vector Space(CSVS).The TC module can be summarized as below:the TC system is divided into two parts:training part and categorization part.Sememes are divided into c lassfiable sememes and unclassfiable sememes.Keywords are extracted from the text after it has been preprocessed.The keywords are disambiguated according to their parts of speech and context.The concepts of keywords are then reduced to sememes according to their definitions in How—Net.As a result,the text is represented as a vector in the CSVS after removing a11 unclassfiable sememes.The simi far texts form a cluster in the CSVS.For

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档