一种基于维基百科的中文短文本分类算法.PDFVIP

下载本文档

32
0
约1.8万字
约 5页
2018-12-13 发布于天津
举报

一种基于维基百科的中文短文本分类算法.PDF

第５７卷第１１期　２０１３年６月一种基于维基百科的中文短文本分类算法 ■ 赵辉　刘怀亮［摘　要］为解决短文本特征词少、概念信号弱的问题，结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算，利用消歧页结合短文本上下文信息解决一词多义问题，进而以词语间语义相关关系为基础进行特征扩展，以补充文本特征语义信息。最后，给出基于维基百科的中文短文本分类算法，并对其进行实验验证。结果表明，该算法能有效提高中文短文本分类效果。［关键词］短文本分类　维基百科　词义消歧　特征扩展［分类号］Ｇ３５０１　引　言算法。本文首先利用维基百科所含有的概念及其链接等信息进行词语的相关概念集合构建，通过页面间链　　随着互联网中即时消息、微博、短信等短文本信息接信息进行概念间语义相关关系量化，然后利用抽取的快速增长，人们迫切需要对这些信息进行分类处理，的维基百科词语相关概念集合作为扩展词集合，以词以便准确、快速地定位自己所需的信息。目前已有的语间语义相关关系为基础扩充文本特征，通过词义消针对长文本的分类技术取得了丰硕的成果，但是由于歧完成概念的选取，从而进行短文本特征扩展，以此提短文本自身的特点（如稀疏性、实时性、不规范性等），高短文本所描述概念的准确性，丰富语义表达，同时在传统的基于长文本的的分类方法对于短文本并不能取一定程度上降低短文本特征稀疏对分类性能的影响。［１］得令人满意的效果。　　与长文本相比，短文本一般不超过２００字符，这使２　基于维基百科的词语相关概念集合构建得短文本较长文本特征稀疏性更加明显，而且也造成２．１　维基百科知识库概述描述概念信号弱、噪音数据多等问题。另外，短文本中　　维基百科作为一个以开放和用户协作编辑为特点经常出现的缩写词、变形词、俗语等不规则词语，也影的Ｗｅｂ２．０知识系统，具有知识覆盖面广、结构化程度［２］响了传统的文本预处理和文本表示方法的效果。目［１２］高、信息更新速度快等优点。维基百科是一个以页前，一些学者先后开始研究利用一些额外的信息来扩面为单位组成的具有丰富链接结构的超文本文档集［３］展文本特征辅助中文短文本分类。如王鹏等利用依合，它主要包含以下重要元素：存关系对短文本进行特征扩充以实现有效的短文本分２．１．１　主题页面　主题页面作为维基百科中最基本、［４］类。范云杰等利用维基百科对短文本进行特征扩重要的元素，其含有唯一的ＩＤ标识用以描述一个单独展，采用统计规律与类别信息结合的方式计算概念间［１３］的概念。概念是维基百科的基本单位，即指被解释［５－７］［８］［９］相关度。王细薇等、曹叶盛、ＦａｎＸｉｎｇｈｕａ等利的一个对象、事件或命名实体，如“情报”、“北京奥运用关联规则挖掘文本中词共现关系以构建特征共现集会”、“姚明”等。［１０］进行短文本特征扩展。宁亚辉等提出借助知网对２．１．２　重定向　维基百科将同义的多个概念

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于维基百科的中文短文本分类算法.PDFVIP