基于LDA特征扩展短文本分类方法研究.docVIP

下载本文档

22
0
约7.13千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于LDA特征扩展短文本分类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA特征扩展短文本分类方法研究

基于LDA特征扩展短文本分类方法研究　　摘要：　　针对短文本信息篇幅短、信息量少、特征稀疏的特?c，提出一种基于LDA（Laten Dirichlet Allocation）主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布，然后将对应主题下的词扩充到原来短文本的特征中，作为新的部分特征词，最后利用SVM分类方法进行分类。实验结果表明，相比于传统的基于VSM模型的分类方法，基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题，在各个类别上的查准率、查全率和F1值都有所提高，充分验证了该方法对短文本分类的可行性。　　关键词：　　短文本分类；隐含狄利克雷分布（LDA）；特征扩展；SVM 　　DOIDOI：10.11907/rjdk.172295 　　中图分类号：TP301 　　文献标识码：A文章编号文章编号2018）003006304 　　英文摘要Abstract：This paper presented a short text classification method based on LDA （Laten Dirichlet Allocation） theme model for short text information， short message， and sparse features. This method used the LDA model to obtain the subject distribution of the document， and then extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. Finally， SVM classification method was used to classify. The experimental results show that the short text classification method based on the LDA feature extension overcomes the problem of sparseness of features， and the precision， recall and F1 values are improved in all categories compared with the traditional classification method based on VSM model. It is proved that the method is feasible for short text classification. 　　英文关键词Key Words：short text classification； Laten Dirichlet Allocation （LDA）； feature expansion； SVM 　　0引言　　随着互联网的快速发展，手机、平板电脑等移动终端的普及，手机短信息、微博、网络评论、论坛发帖回帖等短文本形式的信息不断涌入人们的生活中。面对大量短文本信息，如何快速而准确地从中获取所需的关键信息，成为众多研究者关注的热点问题。近年来，短文本处理技术也应用于舆情分析[1]和搜索引擎[2]等领域。　　目前对于文本信息的处理，如文本分类，已经有了可用性比较高的技术，然而对于篇幅较短的文本，还没有比较成熟的方法。当前常用的文本分类方法主要有朴素贝叶斯算法、K近邻算法、支持向量机算法等，这些方法要求足够的词频共现信息，适用于长文本分类。但是短文本具有篇幅短、信息量少、特征稀疏等特点，相关方法直接应用于短文本分类并不能取得良好效果，其主要困难在于短文本的特征稀疏问题[3]。　　对于短文本分类方法的研究，近年来主要有基于语义和基于规则两种方法。基于语义的方法主要是借助外部知识库获取短文本中的语义信息，该方法可以发现大部分词之间存在的语义关系，但是对库中不存在的词则不起作用；基于规则的方法是利用各类词语之间相关联的规则进行分类，比如基于搜索引擎的方法，利用搜索引擎的查询结果对短文本进行扩展，该方法对搜索质量要求较高，且比较耗时，影响短文本分类的实时性。针对短文本的分类问题，Quan[4]、宋志理[5]、王细薇等[6]都从不同方面对短文本分类方法进行了研究。经过对已有各种方法的研究比较，本文使用LDA模型对短文本特征进行扩展，以克服其特征稀疏的缺点，具有良好的分类效果