一个基于概念的中文文本分类模型-《知网》!.doc

下载文档

3
0
约5.89千字
约 5页
2017-05-26 发布于天津
举报
版权申诉
保障服务

一个基于概念的中文文本分类模型-《知网》!.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一个基于概念的中文文本分类模型-《知网》!

一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门 361005 摘要本文提出一个电子文档的自动分类的模型：基于《知网》之上，经过对文档的关键词的抽取和排岐，进而得到关键词的概念，再对关键词的概念进行综合而得到该文本的所属的类别，实验证明该模型有较好的效果。关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展，特别是随着因特网的快速发展，各种信息情报激增，特别是网上信息浩如烟海，人们可能通过因特网能很快地得到大量的资料，因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进行管理一个很常见的方法就是对它们系统地进行分类。显然，用人工对文本材料进行分类的过程是通读所有文章，然后再对它们进行归类保存。当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作，显然这个过程具有周期长、费用高、效率低的特点，在信息爆炸的今天很难满足实际需要，如何运用计算机进行自动分类成了许多人的研究方向。一般而言，文本分类方法可分为两个类型：基于外延方法的分类方法：这种类型的分类方法不关心文本的语义，根据文本的外在特征进行分类。最常见的方法是基于向量空间模型（Vector Space Module）的方法，该方法的思想是：把文本表征成由特征项构成的向量空间中的一个点，通过计算向量之间的距离，来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是：先通过对训练语料的学习对每个类建立特征向量作为该类的表征，然后依次计算该向量和各个类的特性向量的距离，选取距离大小符合域值的类别作为该文本所属的最终类别。这种方法有了很多的应用，但是其不足之处也是显而易见的： 1.正确率一般只能达到80%，且很难进一步向上发展 2.对于不同体材的文本，则其归类正确率更是大打折扣。基于语义的分类方法：这种类型的分类方法采用全部或部份理解文本的语义而进行归类。主要可以分为以下三类： 1.基于词的归类技术文本的语义是基于概念之上的，而词是概念的基本构成单位，从文本抽取出能反映出该文本的关键词，通过对关键词归类而进行归类，显然这种方法产生的归类其实并不是真正通过语义来进行归类，属于较早采用的技术。 2.基于知识的归类技术基于知识库的归类技术有一个明确的知识库，知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造知识库，且建造的知识库领域性极强，移植非常困难。最近的研究工作表明，在一定的领域内，基于知识库的系统能够进行快速准确的分类。 3.基于概念的归类技术基于概念的归类技术是一种介于词的分类技术和基于知识的归类技术之间的技术，它只抽取那些对文本分类有用的概念，它抽取短语周围的文本和潜在的语义概念进行文本类别的确定。基于概念的归类技术并不需要理解全文的语义，这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个较好的方法。本文提出了一个中文文本自动分类模型，它是基于概念的归类技术，建立在《知网》基础之上的，从文章中抽取出关键词，利用词产生的概念对全文进行分析，然后根据概念的类别综合进行分类。二、知网简介　《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库。《知网》认为世界上的一切事件都在特定的时间和空间内不停地运动和变化，它们通常是从一种状态变化到另一种状态，并通常通过其属性来体现。《知网》概括了八百多个事件义原，通过义原的组合来标注各种各样的单纯的或复杂的概念，以及各个概念与概念之间、概念的属性与属性之间的关系。相对来说，新词虽然层出不穷，但义原的增加却极少，显然，从理论上说，处理好了这八百多个义原就可以实现对文本的分类。《知网》使用义原的组合来标注各种各样的单纯或复杂的概念，其标注时按其特征的重要性从大到小顺序来定义概念，但在文本分类的过程中，我们发现许多概念的主要特征大部分无法定义其类别，而且其特性倒不是我们所关心的。所以我们定义一个概念的第一个能够归类的特性为首分特性，每一个能够归类的特性称为可分特性。显然，首分特性是最重要的可分特性。对在我们的文本分类过程当中主要是利用概念的首分特性和可分特性来进行分类。《知网》作为一个知识系统，实副其名是一个网而不是树。它所要反映的是概念的共性和个性，知网还着力要反映概念之间和概念的属性之间的各种关系。三、系统的设计与实现　在本模型中，概念的生成是基于对词的理解之上的，而知网作为一个常识数据库，对概念的理解已经形成电子文档