基于概念描述及内容扩展的短文本分类方法研究.docVIP

下载本文档

3
0
约3.98万字
约 51页
2019-05-13 发布于安徽
举报
版权申诉

基于概念描述及内容扩展的短文本分类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

重庆大学硕士学位论文 1 绪论看法观点，对其进行挖掘我们可以更精确的得知网友对该事物的看法，进行相应的改进，比如近几年流行的商品评论分析[1]；微博则是近几年才流行起来的观点平台，网友通过在上面更新自己每天经历的事件、照片而与友邻进行互动，对其进行挖掘可以帮助我们更精确的得到网友感兴趣的领域，从而更精确的投放广告，或者根据用户的兴趣个性化推荐。个性化推荐[2]是使用相关数据挖掘算法根据用户兴趣和行为，向用户推荐用户可能感兴趣的其他相关产品或者服务，由于网络信息量庞大的特性，这一过程必须是自动完成。广义的个性化推荐是指根据用户的兴趣和行为引导用户指向不同的行为，狭义的个性化推荐则是根据用户的兴趣和行为推荐不同的产品或者服务。文本分类[3]（Text categorization）是指在给定分类体系下，根据文本内容自动确定文本类别的过程。文本分类也是文本挖掘的必经步骤，当前，在文本分类领域的研究已经相对成熟，国内外许多学者对其都进行了研究，提出了很多创新的算法，常见的文本分类方法有 Rocchio 算法、朴素贝叶斯（NB）算法、K 近邻（KNN）算法和支持向量机（SVM）算法[4]。近年来，文本分类已逐渐与搜索引擎、信息推送、信息过滤等技术相结合，有效的提高了信息服务的质量。但是，有关短文本分类的研究，国内外也都才进入起步和试探的阶段，短文本由于其自身文本长度较短，通常文本包含的词较少，传统的简单的基于向量空间模型和词频统计的模型效果并不是很理想[5]，而基于语义的模型又因为其需要计算太多的因素而效率低下。虽说传统的文本分类算法对短文本的处理有一定的借鉴意义，但是我们也应抓住短文本自身的一些特征，从而构建出不同于传统文本的分类算法。传统文本分类算法应用到当前短文本分类达不到理想的效果，这主要是由于短文本自身的特点决定的：一、数据稀疏，二、短文本自身缺乏足够的语义信息[6]，但是同时我们也应该注意到短文本也有其自己的特点，由于同样表达一个意思，短文本相对长文本使用了更少的词语量，因此短文本中每个词语所包含的信息量都是相对较大的，因此我们可以基于这个思想深入挖掘每个词语背后的语义信息进行一个扩展，让其适用于 VSM 模型。本文使用了一种扩展方法，将每条待分类短文本的语义信息进行一个扩展，然后使用类似传统长文本分类的算法对其进行分类，从而提高短文本的分类准确率。课题内容正如前文所述，短文本自有其特殊之处。因此，短文本由于其文本长度较短并且特征稀疏，要对其进行挖掘就必须进行潜在的语义挖掘，对其语义空间进行扩展。同时，目前互联网上产生着越来越多的短文本数据，短文本的挖掘及其应用拥有潜在并广泛的价值。 2 重庆大学硕士学位论文 1 绪论但是我们也应看到，短文本的挖掘作为一门前沿的研究领域，暂时还未有成熟的理论和技术。而国内外学者针对短文本分类问题也都做了一定的研究，但是并未取得较好的效果，其根本原因在于，短文本自身的先天缺陷：自身的文本长度相对较短，长文本领域所依赖的统计关键词次数的方法不占优势，而且短文本中一旦出现误差或者噪声，产生的负面影响比长文本分类更加明显[7]，同时，在一些短文本（短信文本、聊天消息等）中，包含着大量的语法不规范的语句格式或者未登录词等等[8]。因此传统的长文本分类技术虽然相对成熟，而且被研究多年，但是直接应用短文本上的效果还是有所欠缺。本课题的主要内容就是针对大规模中文短文本的分类方法进行的探索与研究。本文充分利用了短文本的特点：虽然文本长度不长、特征稀疏，但是由于同样表达一个意思短文本内部每个词语包含的语义信息则相对较大。同时正是由于短文本长度短的特点，短文本本身的句子结构或者句型不会太过复杂，我们在处理时不用太过考虑短文本中语句的前后关系或者语境信息。因此在处理时可以对短文本中每个出现的包含较大信息量的词语进行挖掘并扩展，使得短文本的扩展成为一篇长文本，然后通过传统成熟的长文本分类算法进行分类。本文首先对传统文本分类算法的特点和短文本分类当前遇到的问题进行了研究和讨论，然后介绍了本文构建的针对中文的短文本分类器，该分类器拥有的特点是分类速度快并且可扩展性较强，同时充分利用短文本中每个词语包含的信息量相对较多特点，对短文本进行扩展后达到传统长文本分类器使用的标准，然后使用相对成熟的长文本分类算法进行分类；最后，我们针对待分类短文本进行扩展的 BM25 算法进行了改进，使其更适用于短文本分类的环境。本文主要工作内容具体说来，本文针对短文本的特点，基于本实验室收集的百度知道短文本语料库和新闻标题语料库，进行的中文短文本分类的研究，主要的研究内容如下： ① 研究中文文本的概念表示方法在中文文本挖