一种基于维基百科的中文短文本分类算法.PDFVIP

  • 32
  • 0
  • 约1.8万字
  • 约 5页
  • 2018-12-13 发布于天津
  • 举报

一种基于维基百科的中文短文本分类算法.PDF

一种基于维基百科的中文短文本分类算法.PDF

第57卷 第11期 2013年6月 一种基于维基百科的中文短文本分类算法 ■ 赵辉 刘怀亮 [摘 要]为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分 类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本 上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。 最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短 文本分类效果。 [关键词]短文本分类 维基百科 词义消歧 特征扩展 [分类号]G350 1 引 言 算法。本文首先利用维基百科所含有的概念及其链接 等信息进行词语的相关概念集合构建,通过页面间链   随着互联网中即时消息、微博、短信等短文本信息 接信息进行概念间语义相关关系量化,然后利用抽取 的快速增长,人们迫切需要对这些信息进行分类处理, 的维基百科词语相关概念集合作为扩展词集合,以词 以便准确、快速地定位自己所需的信息。目前已有的 语间语义相关关系为基础扩充文本特征,通过词义消 针对长文本的分类技术取得了丰硕的成果,但是由于 歧完成概念的选取,从而进行短文本特征扩展,以此提 短文本自身的特点(如稀疏性、实时性、不规范性等), 高短文本所描述概念的准确性,丰富语义表达,同时在 传统的基于长文本的的分类方法对于短文本并不能取 一定程度上降低短文本特征稀疏对分类性能的影响。 [1] 得令人满意的效果 。   与长文本相比,短文本一般不超过200字符,这使 2 基于维基百科的词语相关概念集合构建 得短文本较长文本特征稀疏性更加明显,而且也造成 2.1 维基百科知识库概述 描述概念信号弱、噪音数据多等问题。另外,短文本中   维基百科作为一个以开放和用户协作编辑为特点 经常出现的缩写词、变形词、俗语等不规则词语,也影 的Web2.0知识系统,具有知识覆盖面广、结构化程度 [2] 响了传统的文本预处理和文本表示方法的效果 。目 [12] 高、信息更新速度快等优点 。维基百科是一个以页 前,一些学者先后开始研究利用一些额外的信息来扩 面为单位组成的具有丰富链接结构的超文本文档集 [3] 展文本特征辅助中文短文本分类。如王鹏等 利用依 合,它主要包含以下重要元素: 存关系对短文本进行特征扩充以实现有效的短文本分 2.1.1 主题页面 主题页面作为维基百科中最基本、 [4] 类。范云杰等 利用维基百科对短文本进行特征扩 重要的元素,其含有唯一的ID标识用以描述一个单独 展,采用统计规律与类别信息结合的方式计算概念间 [13] 的概念 。概念是维基百科的基本单位,即指被解释 [5-7] [8] [9] 相关度。王细薇等 、曹叶盛 、FanXinghua等 利 的一个对象、事件或命名实体,如“情报”、“北京奥运 用关联规则挖掘文本中词共现关系以构建特征共现集 会”、“姚明”等。 [10] 进行短文本特征扩展。宁亚辉等 提出借助知网对 2.1.2 重定向 维基百科将同义的多个概念

文档评论(0)

1亿VIP精品文档

相关文档