- 32
- 0
- 约1.8万字
- 约 5页
- 2018-12-13 发布于天津
- 举报
一种基于维基百科的中文短文本分类算法.PDF
第57卷 第11期 2013年6月
一种基于维基百科的中文短文本分类算法
■ 赵辉 刘怀亮
[摘 要]为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分
类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本
上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。
最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短
文本分类效果。
[关键词]短文本分类 维基百科 词义消歧 特征扩展
[分类号]G350
1 引 言 算法。本文首先利用维基百科所含有的概念及其链接
等信息进行词语的相关概念集合构建,通过页面间链
随着互联网中即时消息、微博、短信等短文本信息
接信息进行概念间语义相关关系量化,然后利用抽取
的快速增长,人们迫切需要对这些信息进行分类处理,
的维基百科词语相关概念集合作为扩展词集合,以词
以便准确、快速地定位自己所需的信息。目前已有的
语间语义相关关系为基础扩充文本特征,通过词义消
针对长文本的分类技术取得了丰硕的成果,但是由于 歧完成概念的选取,从而进行短文本特征扩展,以此提
短文本自身的特点(如稀疏性、实时性、不规范性等), 高短文本所描述概念的准确性,丰富语义表达,同时在
传统的基于长文本的的分类方法对于短文本并不能取 一定程度上降低短文本特征稀疏对分类性能的影响。
[1]
得令人满意的效果 。
与长文本相比,短文本一般不超过200字符,这使 2 基于维基百科的词语相关概念集合构建
得短文本较长文本特征稀疏性更加明显,而且也造成 2.1 维基百科知识库概述
描述概念信号弱、噪音数据多等问题。另外,短文本中 维基百科作为一个以开放和用户协作编辑为特点
经常出现的缩写词、变形词、俗语等不规则词语,也影 的Web2.0知识系统,具有知识覆盖面广、结构化程度
[2]
响了传统的文本预处理和文本表示方法的效果 。目 [12]
高、信息更新速度快等优点 。维基百科是一个以页
前,一些学者先后开始研究利用一些额外的信息来扩 面为单位组成的具有丰富链接结构的超文本文档集
[3]
展文本特征辅助中文短文本分类。如王鹏等 利用依 合,它主要包含以下重要元素:
存关系对短文本进行特征扩充以实现有效的短文本分 2.1.1 主题页面 主题页面作为维基百科中最基本、
[4]
类。范云杰等 利用维基百科对短文本进行特征扩 重要的元素,其含有唯一的ID标识用以描述一个单独
展,采用统计规律与类别信息结合的方式计算概念间 [13]
的概念 。概念是维基百科的基本单位,即指被解释
[5-7] [8] [9]
相关度。王细薇等 、曹叶盛 、FanXinghua等 利 的一个对象、事件或命名实体,如“情报”、“北京奥运
用关联规则挖掘文本中词共现关系以构建特征共现集 会”、“姚明”等。
[10]
进行短文本特征扩展。宁亚辉等 提出借助知网对 2.1.2 重定向 维基百科将同义的多个概念
您可能关注的文档
最近下载
- 人教版五年级语文(下册)写字表课文同步正楷练字帖.pdf VIP
- 家谱发放仪式上的讲话范文(3篇).docx VIP
- 塔吊拆除作业安全培训内容课件.pptx VIP
- SYT 5328-2019 石油天然气钻采设备 热采井口装置.docx VIP
- 肖邦升C小调幻想即兴曲(Op.66)(原版) 高清钢琴谱五线谱.docx VIP
- 高技术船舶科研项目指南(2024年).pdf VIP
- 全国大学生市场调查与分析大赛调查研究报告.PDF VIP
- 中北大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 产前检查ppt课件图文.pptx VIP
- 精品解析:重庆市万州二中教育集团2025-2026学年八年级上学期期中物理试题(原卷版).docx VIP
原创力文档

文档评论(0)