面向社区问答的中文短文本分类算法研究.docVIP

下载本文档

6
0
约7.91千字
约 13页
2017-01-23 发布于北京
举报
版权申诉

面向社区问答的中文短文本分类算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向社区问答的中文短文本分类算法研究.doc

面向社区问答的中文短文本分类算法研究　　〔摘要〕为解决社区问答系统中的问题短文本特征词少、描述信息弱的问题，本文利用维基百科进行特征扩展以辅助中文问题短文本分类。首先通过维基百科概念及链接等信息进行词语相关概念集合抽取，并综合利用链接结构和类别体系信息进行概念间相关度计算。然后以相关概念集合为基础进行特征扩展以补充文本特征语义信息。实验结果表明，本文提出的基于特征扩展的短文本分类算法能有效提高问题短文本分类效果。　　〔关键词〕社区问答；维基百科；特征扩展；短文本分类　　〔中图分类号〕G254〔文献标识码〕A〔文章编号〕1008-0821（2013）10-0070-05 　　社区问答系统是一种基于Web的问答系统，如百度知道、yahoo！ Answers等。作为一种具有开放性、交互性特点的知识共享模式，它能够更好的帮助人们利用互联网的资源来获取和分享信息。对用户提出的问题进行分类是社区问答系统服务的一个主要任务，将用户提问发布到合适的类别，可以方便其他用户发现和回答该提问，也有助于对系统积累的海量问答进行知识挖掘和兴趣推荐[1]。由于问题文本一般较短、特征稀疏，且中文文本特有的语言结构，所以传统的基于长文本的分类方法对于短文本并不能取得令人满意的效果。因此，研究中文短文本分类技术成为社区问答系统构建的一个关键问题。　　短文本的长度通常小于160个字符，词汇个数少并且描述信息弱，具有稀疏性和不规范性，却隐含大量有价值的信息。目前，一些学者先后开始研究利用一些额外的信息来扩展文本特征辅助中文短文本分类。如王鹏[2]等利用依存关系对短文本进行特征扩充以实现有效的短文本分类。王细薇[3]等、曹叶盛[4]、Fan[5]等利用关联规则挖掘文本中词共现关系以构建特征共现集进行短文本特征扩展。宁亚辉[6]等提出借助知网对领域高频词进行特征扩展的短文本分类方法。王盛[7]等利用知网的上下位关系对短文本进行扩展。但是领域知识库一般由专家进行编撰，只包含小范围的领域和有限的主题，词汇可扩展性差且更新速度慢，难以满足社区问答系统中的问题分类的需求。范云杰[8]等利用维基百科对短文本进行特征扩展，其采用考虑概念类别因素基于tf-idf法计算概念间相关度。　　为提高社区问答系统中的问题文类效果，本文研究将维基百科知识库引入到中文短文本分类过程中，提出一种基于特征扩展的中文短文本分类算法。本文利用维基百科所含有的类别、概念及其链接等信息，以词语间语义相关关系为基础对短文本特征词语进行语义特征扩展，以此提高特征词所描述概念的准确性、丰富语义表达，同时在一定程度上降低短文本特征稀疏对分类性能的影响。　　1维基百科相关理论　　维基百科作为一个以开放和用户协作编辑为特点的Web2.0知识系统，具有知识覆盖面广，结构化程度高，信息更新速度快等优点[9]。维基百科是一个以页面为单位组成的具有丰富链接结构的超文本文档集合，它主要包含以下重要元素：　　1.1主题页面　　主题页面作为维基百科中最基本、重要的元素，其含有惟一的ID标识用以描述一个单独的概念。概念是维基百科的基本单位，即指被解释的一个对象、事件或命名实体，如“情报”、“北京奥运会”、“姚明”等。　　1.2类别体系　　类别是维基百科中对概念页面信息进行组织的一种有效手段。每一个概念页面通常归属于一个类别或多个类别。如“文本挖掘”这个概念页面归属于“数据挖掘”、“人工智能应用”等多个类别。每个类别可以包含若干子类别，上下层类别之间不仅反映出继承的关系，也可能是实例、包含、属性等不同的语义关系。类别之间的这种关系构成一个巨大的分类体系。　　1.3重定向　　维基百科将同义的多个概念用一个页面进行描述，这些概念中只有一个概念的页面包含解释描述信息，其他的概念则使用重定向链接到这个页面，包含重定向链接的页面称作重定向页面[9]。重定向页面的概念与目标页面概念是同义词。例如“NBA”被重定向到“国家篮球协会”，这种重定向页面的机制同时能够处理大小写、缩写、拼写变体、专业术语等。　　1.4消岐页　　消岐页是为了处理一词多义的机制[9]，例如消歧页面“风车（消歧义）”中，包含指向多个概念页面的链接：“风车”，“风车（玩具）”，“风车（农具）”等。　　1.5链接　　页面与页面之间通过主题页面内容中的超链接联系起来[10]。即概念的描述之间用超链接联系，其中蕴含着重要的事实联系或语义关系。　　2基于维基百科的特征扩展　　为提高短文本特征词的类别特征和最大限度的保留其语义信息，本文借助维基百科知识库来挖掘短文本所蕴含的隐性信息，通过选取一些在语义层面与特征词有高度相关关系的词对特征词进行扩展以辅助短文本分类，利用抽取的维基百科词语相关概念集合作为扩展词