网站大量收购独家精品文档,联系QQ:2885784924

基于特征增强的短文本分类研究.pdf

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

天津师范大学硕士学位论文

摘要

近年来伴随着数字经济及计算机技术的高速发展,逐渐出现了很多社交媒

体平台、电商平台,人们在平台上交流分享着各种消息,并且这些消息以短文

本的形式出现,这也就导致短文本形式的数据呈爆发式增长。因此对短文本数

据进行分析处理,挖掘出数据背后所包含的内涵,具有十分重要的现实意义和

应用价值,于是短文本分类就成为一个很有意义的研究方向。

短文本数据因其自身存在文字简短、文本噪声大的问题,故而导致在传统

的短文本分类过程中出现文本的特征表示稀疏、特征表达能力差等问题。为此,

本文以短文本类数据为研究对象,深入分析了短文本数据的特点,并对现有短

文本分类模型以及方法存在的不足进行了深度剖析,提出了两种特征增强模型

用于短文本分类,具体的工作可以概述为:

第一种是基于卷积神经网络的特征增强模型CNN-UN(CNN-unsample)。在

CNN-UN模型中,首先,利用多尺度的卷积神经网络提取不同语义特征的语义

特征;然后,本文提出了一种结合上下采样的特征增强方式,先利用上采样扩

充特征向量的方法来增强短文本的语义特征表示,接着对扩充后的特征利用下

采样卷积的方式进一步得到文本特征的深层表示;最后利用文本的深层关键特

征进行分类。

第二种是融合Bert模型和变分自编码器模型的特征增强模型Bert-VAE。在

Bert-VAE模型中,首先,利用预训练Bert模型获取丰富全面的文本特征表示;

然后,针对短文本存在的特征稀疏问题,利用变分自编码器生成增强样本特征

以及Bert编码特征的优良性能,进一步提高文本的特征表示性能;最终融合

Bert文本特征和增强特征预测文本类别。

综上所述,通过在新闻文本标题的分类数据集上的实验结果,证明了本文

提出的两种特征增强方式具有较好的性能,在一定程度上显著提升了模型在短

文本分类任务中的表现。

关键词:短文本分类;特征增强;上采样;Bert模型;变分自编码器

I

天津师范大学硕士学位论文

Astudyofshorttextclassificationbasedonfeature

enhancement

Abstract

Inmoderntimes,alongwiththehigh-speeddevelopmentofdigitaleconomyand

computertechnology,manysocialmediaplatformsande-commerceplatformshave

graduallyemerged,wherepeopleexchangeandsharevariousmessages,andthese

messagesappearintheformofshorttexts,whichhasledtotheexplosivegrowthof

dataintheformofshorttexts.Therefore,itisveryimportanttoanalyzeandprocess

theshorttextdatatofindouttheconnotationbehindthedata,soshorttextclassification

hasbecomeameaningfulresearchdirection.

Shorttextdatahastheproblemsofshorttextandnoisytext,whichleadstothe

problemsofsparsefeaturerepresentationandpoorfeatureexpressioninthetraditional

shorttextclassificationprocess.

文档评论(0)

dongbuzhihui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档